Hive外部表方式加载分区表
diggzhang
Jan 28
问题假设已经在HDFS存在了一个做好分区的目录,在目录下分区方式是通过分区字段区分,具体的数据存在于各个分区目录下:/path/to/hive/table_folder/timestamp=1606694400000/part-c000.snappy.parquet /path/to/hive/table_folder/timestamp=1606608000000/part-c001.snappy.parquet ...... 在本例中,表文件全部存于/path/to/hive/table_folder/目录下,分区目录以timestamp=区分,里面是parquet文件。 我们想做的是,将整个目录作为Hive外部表载入。解决1. 获取parquet文件的数据结构首先是需要获取表结构,启动spark-shell加载HDFS路径,看看有哪些字段:scala> val parquentFile = spark.read.parquet("/path/to/hive/table_folder") scala> parquentFile.printSchema printSchema返...
ParagraphParagraph

diggzhang

Written by
diggzhang
Subscribe

2025 Paragraph Technologies Inc

PopularTrendingPrivacyTermsHome
Search...Ctrl+K

diggzhang

Subscribe