Character encoding 在具有多个字符集的配置单元表中加载数据

Character encoding 在具有多个字符集的配置单元表中加载数据,character-encoding,hive,hdfs,Character Encoding,Hive,Hdfs,我面临的问题是,我有多个具有不同字符集的文件,比如一个文件具有中文字符集,另一个文件具有法语字符集,如何将它们加载到单个配置单元表中?我在网上搜索了一下,发现了这个:- ALTER TABLE mytable SET SERDEPROPERTIES('serialization.encoding'='SJIS') 有了这个,我可以处理其中一个文件的字符集(中文或法文)。有没有办法一次处理两个字符集 [更新] 好的,我正在为固定宽度的文件使用RegexSerde,同时使用的编码方案是-iso885

我面临的问题是,我有多个具有不同字符集的文件,比如一个文件具有中文字符集,另一个文件具有法语字符集,如何将它们加载到单个配置单元表中?我在网上搜索了一下,发现了这个:-

ALTER TABLE mytable SET SERDEPROPERTIES('serialization.encoding'='SJIS')

有了这个,我可以处理其中一个文件的字符集(中文或法文)。有没有办法一次处理两个字符集

[更新]


好的,我正在为固定宽度的文件使用RegexSerde,同时使用的编码方案是-iso8859-1。似乎Regex-Serde没有考虑到这个编码方案,而是在考虑默认UTF-8编码方案的情况下拆分字符。是否有一种方法可以将编码方案与Regex-serde结合起来考虑。

我不确定这是否可行(我认为它不是基于)。解决方法是创建两个具有不同编码的表,并在其上创建一个视图