Apache pig 使用apache pig更改文本文件的格式
我有一个txt文件,其格式如下:Apache pig 使用apache pig更改文本文件的格式,apache-pig,Apache Pig,我有一个txt文件,其格式如下: { (word1),(word2),(word3),....,(wordn) } 这些词没有引号。我想使用apache pig并将此文件的格式更改为: word1 word2 word3 wordn apache pig有什么方法可以做到这一点吗?你能试试这个吗 输入 第1段: 输出:存储在输出/零件*文件中 更新:如果希望所有列都在一行中,请使用展平运算符 第2段: 输出: { (word1),(word2),(word3),(wordn) }
{ (word1),(word2),(word3),....,(wordn) }
这些词没有引号。我想使用apache pig并将此文件的格式更改为:
word1
word2
word3
wordn
apache pig有什么方法可以做到这一点吗?你能试试这个吗
输入
第1段:
输出:存储在输出/零件*文件中
更新:如果希望所有列都在一行中,请使用展平运算符
第2段:
输出:
{ (word1),(word2),(word3),(wordn) }
A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE REPLACE(BagToString(mybag.line),'_',' ');
STORE B INTO 'output';
word1 word2 word3 wordn
A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE FLATTEN(mybag);
STORE B INTO 'output1';
word1
word2
word3
wordn