Utf 8 Thorn符号(“xFE”)不适用于pig脚本

Utf 8 Thorn符号(“xFE”)不适用于pig脚本,utf-8,apache-pig,delimiter,extended-ascii,Utf 8,Apache Pig,Delimiter,Extended Ascii,我的输入数据带有thorn符号(“þ”)我正试图根据thorn符号在pig自定义加载程序中拆分该数据。 在这里,我从一个pig脚本文件调用该自定义加载程序,我将此符号作为参数传递给该文件。 如果我从pig shell运行相同的代码,符号将被识别,但如果我从pig脚本文件运行该代码,则数据中的符号和我传递的符号将彼此不同 例如: 我的数据是:“abcþdefþghi” 从清管器外壳读取的数据为:abc�def�ghi 来自清管器外壳的符号读作:� 十六进制值为:fffd,十进制值为:65533 从

我的输入数据带有thorn符号(“þ”)
我正试图根据thorn符号在pig自定义加载程序中拆分该数据。
在这里,我从一个pig脚本文件调用该自定义加载程序,我将此符号作为参数传递给该文件。
如果我从pig shell运行相同的代码,符号将被识别,但如果我从pig脚本文件运行该代码,则数据中的符号和我传递的符号将彼此不同

例如:
我的数据是:“abcþdefþghi”

从清管器外壳读取的数据为:
abc�def�ghi

来自清管器外壳的符号读作:
� 十六进制值为:fffd,十进制值为:65533

从pig脚本文件中读取数据为:
abc�def�ghi

从清管器脚本文件中,符号被读取为:
þ,十六进制值为:fe,十进制值:254
这对我来说是固定的…
从pig中,我的数据以ISO_8859_1字符集显示。
因此,我使用以下代码将分隔符字符集更改为ISO_8859_1

new String(StandaradCharset.forName("ISO_8859_1").encode(<delimiter>).toArray());
新字符串(StandaradCharset.forName(“ISO_8859_1”).encode().toArray());