Apache pig ApachePig可以比较unicode字符串吗?
我有一个包含以下数据的文件:Apache pig ApachePig可以比较unicode字符串吗?,apache-pig,Apache Pig,我有一个包含以下数据的文件: jumpsuit 1 son 1 Đồng hồ kim 1 这是我的猪脚本: A = LOAD 'hdfs://Hadoop238:8020/user/steve/test/test.txt' USING PigStorage AS (productName:chararray, number:int); B = FILTER A BY (productName =='Đồng hồ kim'); DUMP B; 它一无所获。但如果我改为: B =
jumpsuit 1
son 1
Đồng hồ kim 1
这是我的猪脚本:
A = LOAD 'hdfs://Hadoop238:8020/user/steve/test/test.txt' USING PigStorage AS (productName:chararray, number:int);
B = FILTER A BY (productName =='Đồng hồ kim');
DUMP B;
它一无所获。但如果我改为:
B = FILTER A BY (productName =='jumpsuit');
它返回值
似乎猪不能比较unicode字符串。有没有办法比较unicode字符串?在UTF-8系统上,您可以指定:
- 由可打印ASCII字符(如“abc”)组成的字符串常量
- 您可以指定诸如“\t”之类的控制字符
- 您可以通过以“\u”开头指定Unicode中的字符,例如,“\u0001”表示十六进制的Ctrl-a
\u0110\u1ED3ng h\u1ED3 kim
来表示ồng hồ kim
这是一个小问题,但您可以将该字符转换为unicode并将其作为参数传递
理论上,您应该能够在非UTF-8系统上指定非UTF-8常量,但据我们所知,这尚未经过测试