Date 通过Spark使用日期数据类型的配置单元分区表_Date_Hive_Pyspark_Hive Partitions

Date 通过Spark使用日期数据类型的配置单元分区表

date hive pyspark

Date 通过Spark使用日期数据类型的配置单元分区表,date,hive,pyspark,hive-partitions,Date,Hive,Pyspark,Hive Partitions,我有一个方案，希望得到专家的意见我必须通过spark（python）从关系数据库加载分区中的配置单元表。我无法创建配置单元表，因为我不确定源中有多少列，并且它们将来可能会更改，所以我必须使用从tablename中选择* 然而，我确信分区列并知道它不会改变。此列在源数据库中为“日期”数据类型我正在使用SaveAsTable和partitionBy选项，并且我能够根据分区列正确创建文件夹。也正在创建配置单元表我面临的问题是，由于分区列是“date”数据类型，并且在配置单元中分区不支持相同的数据

我有一个方案，希望得到专家的意见

我必须通过spark（python）从关系数据库加载分区中的配置单元表。我无法创建配置单元表，因为我不确定源中有多少列，并且它们将来可能会更改，所以我必须使用<代码>从tablename中选择*

然而，我确信分区列并知道它不会改变。此列在源数据库中为“日期”数据类型

我正在使用

SaveAsTable

和

partitionBy

选项，并且我能够根据分区列正确创建文件夹。也正在创建配置单元表

我面临的问题是，由于分区列是“date”数据类型，并且在配置单元中分区不支持相同的数据类型。由于这个原因，我无法通过配置单元或impala查询读取数据，因为它说日期不支持作为分区列

请注意，我不能在发出

select

语句时强制转换列，因为我必须执行

select*fromtablename

，而不是

selecta，b，强制转换（c）为varcharfromtable

尝试在配置单元表架构中将date的数据类型更改为string，希望它能工作！请参阅-，了解与此相关的更多详细信息，我恐怕无法做到这一点，因为我必须自动执行此过程，并且无法在数据加载后更新列。