Apache pig 在PIG中使用TOKENIZE

Apache pig 在PIG中使用TOKENIZE,apache-pig,Apache Pig,我正试图在PIG中使用标记化函数来处理逗号分隔的文档。我想在逗号上拆分,但不在空格上拆分。例如,我想要一份 (汽车,玩具汽车,兔子)是(汽车),(玩具汽车),(兔子)不是(汽车),(玩具),(汽车),(兔子)。 有没有办法做到这一点?您有没有查看过仅在逗号上拆分的方法 (它适用于像标记化一样的CHARARRAY)您是否查看过仅在逗号上拆分的方法 (它适用于类似于标记化的CHARARRAY)另一种方式 您也可以尝试使用展平操作符 例如: 输入->(a,(b,c)) B=每个A生成$0,展平($1)

我正试图在PIG中使用标记化函数来处理逗号分隔的文档。我想在逗号上拆分,但不在空格上拆分。例如,我想要一份 (汽车,玩具汽车,兔子)是(汽车),(玩具汽车),(兔子)不是(汽车),(玩具),(汽车),(兔子)。 有没有办法做到这一点?

您有没有查看过仅在逗号上拆分的方法

(它适用于像标记化一样的CHARARRAY)

您是否查看过仅在逗号上拆分的方法

(它适用于类似于标记化的CHARARRAY)

另一种方式

您也可以尝试使用展平操作符

例如:

输入->(a,(b,c))

B=每个A生成$0,展平($1)

输出->(a、b、c)

同时使用扁平化和标记化

您可以用另一种方法阅读字数问题

您也可以尝试使用展平操作符

例如:

输入->(a,(b,c))

B=每个A生成$0,展平($1)

输出->(a、b、c)

同时使用扁平化和标记化

你可以阅读单词计数问题