Hadoop 在Apache pig中读取压缩(.xz)文件

Hadoop 在Apache pig中读取压缩(.xz)文件,hadoop,compression,apache-pig,xz,Hadoop,Compression,Apache Pig,Xz,我正在尝试读取使用pig脚本使用编解码器压缩的.xz文件 我试过的示例代码是 REGISTER hadoop-xz-1.4.jar SET output.compression.enabled true; SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec; msg = LOAD 'pigtest/newXZ.xz' USING PigStorage(); STORE msg INTO 'pigtest/output' U

我正在尝试读取使用pig脚本使用编解码器压缩的.xz文件

我试过的示例代码是

REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;

msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;
结果仍然是压缩格式。是我做错了还是我必须在清管器内部使用
XZInputStream


运行环境是HortonWorks Sandbox 2.2(色调)

取决于您想要做什么

看起来您想要读取一个XZ文件,所以我假设您需要设置输入编解码器,而不是输出编解码器

我不是PIG用户,但据我所知,它无法轻松处理自定义压缩(例如与Hive和流媒体不同)