Date 通过Spark使用日期数据类型的配置单元分区表

Date 通过Spark使用日期数据类型的配置单元分区表,date,hive,pyspark,hive-partitions,Date,Hive,Pyspark,Hive Partitions,我有一个方案,希望得到专家的意见 我必须通过spark(python)从关系数据库加载分区中的配置单元表。我无法创建配置单元表,因为我不确定源中有多少列,并且它们将来可能会更改,所以我必须使用从tablename中选择* 然而,我确信分区列并知道它不会改变。此列在源数据库中为“日期”数据类型 我正在使用SaveAsTable和partitionBy选项,并且我能够根据分区列正确创建文件夹。也正在创建配置单元表 我面临的问题是,由于分区列是“date”数据类型,并且在配置单元中分区不支持相同的数据

我有一个方案,希望得到专家的意见

我必须通过spark(python)从关系数据库加载分区中的配置单元表。我无法创建配置单元表,因为我不确定源中有多少列,并且它们将来可能会更改,所以我必须使用<代码>从tablename中选择*

然而,我确信分区列并知道它不会改变。此列在源数据库中为“日期”数据类型

我正在使用
SaveAsTable
partitionBy
选项,并且我能够根据分区列正确创建文件夹。也正在创建配置单元表

我面临的问题是,由于分区列是“date”数据类型,并且在配置单元中分区不支持相同的数据类型。由于这个原因,我无法通过配置单元或impala查询读取数据,因为它说日期不支持作为分区列


请注意,我不能在发出
select
语句时强制转换列,因为我必须执行
select*fromtablename
,而不是
selecta,b,强制转换(c)为varcharfromtable

尝试在配置单元表架构中将date的数据类型更改为string,希望它能工作!请参阅-,了解与此相关的更多详细信息,我恐怕无法做到这一点,因为我必须自动执行此过程,并且无法在数据加载后更新列。