Hadoop 配置单元中的Unicode数据支持
根据配置单元文档,配置单元支持表中的unicode数据 我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但当我说Hadoop 配置单元中的Unicode数据支持,hadoop,unicode,hive,Hadoop,Unicode,Hive,根据配置单元文档,配置单元支持表中的unicode数据 我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但当我说select*from时,我得到了垃圾值 create table unicode (data string); load data local inpath 'unicode.txt' into table unicode; 下面是select的输出 Les caract�res accentu�s (Fran�ais) En donnï
select*from
时,我得到了垃圾值
create table unicode (data string);
load data local inpath 'unicode.txt' into table unicode;
下面是select的输出
Les caract�res accentu�s (Fran�ais)
En donn�es nous avons confiance
Donn�es, donn�es, partout
et tous les noeuds �taient d�connect�
Donn�es, donn�es, partout
ni aucun bit � traiter
原创内容
埃森图教堂(法国)
有人能提出可能的问题吗?在您的案例中,Create table查询使用默认配置单元serde(即简单的惰性serde)创建一个表,该serde不处理unicode
为了处理unicode,您需要使用其他Serde(如textinput或rcserde)定义表。将文本文件保存为UTF-8编码,然后将数据加载到配置单元表。不支持其他编码类型。每当我设置配置单元表已存储为sequencefile或text file时,每次使用lazy Serlaizer时,如何设置textinput或rcserde
En données nous avons confiance
Données, données, partout
et tous les noeuds étaient déconnecté
Données, données, partout
ni aucun bit à traiter