Apache pig Apache Pig-存储/展平袋子，以便将其输出为CSV_Apache Pig

Apache pig Apache Pig-存储/展平袋子，以便将其输出为CSV

apache-pig

Apache pig Apache Pig-存储/展平袋子，以便将其输出为CSV,apache-pig,Apache Pig,我承认这不是一个好问题这是我的问题，我有一个查询的以下输出，其中每一行如下所示： {(570349476329862),(570349476329862),(570349476329862)} {(66638102521614253348753),(66638102521614253348753),(66638102521614253348753)} 3 上述模式为： {{(ID1:chararray)},{(ID2:chararray)},COUNT:long} 我想做的是以CSV格式生

我承认这不是一个好问题

这是我的问题，我有一个查询的以下输出，其中每一行如下所示：

{(570349476329862),(570349476329862),(570349476329862)} {(66638102521614253348753),(66638102521614253348753),(66638102521614253348753)} 3

上述模式为：

{{(ID1:chararray)},{(ID2:chararray)},COUNT:long}

我想做的是以CSV格式生成输出，以便可以轻松地将其输入到数据库中，例如，将上述内容转换为：

57034947632986266638102521614253348753,3

我想我想把袋子弄平，但尽管这个“编译”了，但它没有运行

欢迎任何意见

谢谢

如果您的行李上有相同的数据，例如团体成绩，您可以做两件事：

将给定字段包含在分组中，这样您就不需要处理它了

。。。
B=FOREACH（A组按（计数、ID1、ID2））
将展平（组）生成为（计数、ID1、ID2），
…

或使用内置函数，如MAX

…

B=FOREACH（A组按计数）生成
将（组）展平为计数，
最大值（A.ID1）为ID1，
最大值（A.ID2）为ID1，
…

与建议的datafu函数相比，此函数的优点是，您可以使用内置函数来实现

我希望这有帮助

您可以查看DataFu的

FirstTupleFromBag（）

每个包中都有重复的元组吗？那么，您是否只想从两个包中提取第一个元组并从中提取值？如果您有几乎可以工作的代码，请显示代码，并更准确地描述“它不运行”时发生的情况。