Hadoop 配置单元中的Unicode数据支持

Hadoop 配置单元中的Unicode数据支持,hadoop,unicode,hive,Hadoop,Unicode,Hive,根据配置单元文档,配置单元支持表中的unicode数据 我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但当我说select*from时,我得到了垃圾值 create table unicode (data string); load data local inpath 'unicode.txt' into table unicode; 下面是select的输出 Les caract�res accentu�s (Fran�ais) En donnï

根据配置单元文档,配置单元支持表中的unicode数据

我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但当我说
select*from
时,我得到了垃圾值

create table unicode (data string);
load data local inpath 'unicode.txt' into table unicode;
下面是select的输出

Les caract�res accentu�s (Fran�ais)

En donn�es nous avons confiance

Donn�es, donn�es, partout
et tous les noeuds �taient d�connect�

Donn�es, donn�es, partout
ni aucun bit � traiter
原创内容 埃森图教堂(法国)


有人能提出可能的问题吗?

在您的案例中,Create table查询使用默认配置单元serde(即简单的惰性serde)创建一个表,该serde不处理unicode


为了处理unicode,您需要使用其他Serde(如textinput或rcserde)定义表。

将文本文件保存为UTF-8编码,然后将数据加载到配置单元表。不支持其他编码类型。

每当我设置配置单元表已存储为sequencefile或text file时,每次使用lazy Serlaizer时,如何设置textinput或rcserde
En données nous avons confiance

Données, données, partout
et tous les noeuds étaient déconnecté

Données, données, partout
ni aucun bit à traiter