Apache pig ApachePig可以比较unicode字符串吗?

Apache pig ApachePig可以比较unicode字符串吗?,apache-pig,Apache Pig,我有一个包含以下数据的文件: jumpsuit 1 son 1 Đồng hồ kim 1 这是我的猪脚本: A = LOAD 'hdfs://Hadoop238:8020/user/steve/test/test.txt' USING PigStorage AS (productName:chararray, number:int); B = FILTER A BY (productName =='Đồng hồ kim'); DUMP B; 它一无所获。但如果我改为: B =

我有一个包含以下数据的文件:

jumpsuit    1
son 1
Đồng hồ kim 1
这是我的猪脚本:

A = LOAD 'hdfs://Hadoop238:8020/user/steve/test/test.txt' USING PigStorage AS (productName:chararray, number:int);

B = FILTER A BY (productName =='Đồng hồ kim');

DUMP B;
它一无所获。但如果我改为:

B = FILTER A BY (productName =='jumpsuit');
它返回值


似乎猪不能比较unicode字符串。有没有办法比较unicode字符串?

在UTF-8系统上,您可以指定:

  • 由可打印ASCII字符(如“abc”)组成的字符串常量
  • 您可以指定诸如“\t”之类的控制字符
  • 您可以通过以“\u”开头指定Unicode中的字符,例如,“\u0001”表示十六进制的Ctrl-a
您应该使用
\u0110\u1ED3ng h\u1ED3 kim
来表示
ồng hồ kim

这是一个小问题,但您可以将该字符转换为unicode并将其作为参数传递

理论上,您应该能够在非UTF-8系统上指定非UTF-8常量,但据我们所知,这尚未经过测试