Apache pig Apache Pig-存储/展平袋子,以便将其输出为CSV

Apache pig Apache Pig-存储/展平袋子,以便将其输出为CSV,apache-pig,Apache Pig,我承认这不是一个好问题 这是我的问题,我有一个查询的以下输出,其中每一行如下所示: {(570349476329862),(570349476329862),(570349476329862)} {(66638102521614253348753),(66638102521614253348753),(66638102521614253348753)} 3 上述模式为: {{(ID1:chararray)},{(ID2:chararray)},COUNT:long} 我想做的是以CSV格式生

我承认这不是一个好问题

这是我的问题,我有一个查询的以下输出,其中每一行如下所示:

{(570349476329862),(570349476329862),(570349476329862)} {(66638102521614253348753),(66638102521614253348753),(66638102521614253348753)} 3
上述模式为:

{{(ID1:chararray)},{(ID2:chararray)},COUNT:long}
我想做的是以CSV格式生成输出,以便可以轻松地将其输入到数据库中,例如,将上述内容转换为:

57034947632986266638102521614253348753,3

我想我想把袋子弄平,但尽管这个“编译”了,但它没有运行

欢迎任何意见


谢谢

如果您的行李上有相同的数据,例如团体成绩,您可以做两件事:

  • 将给定字段包含在分组中,这样您就不需要处理它了
。。。
B=FOREACH(A组按(计数、ID1、ID2))
将展平(组)生成为(计数、ID1、ID2),
…

  • 或使用内置函数,如MAX


    B=FOREACH(A组按计数)生成 将(组)展平为计数, 最大值(A.ID1)为ID1, 最大值(A.ID2)为ID1, …
    与建议的datafu函数相比,此函数的优点是,您可以使用内置函数来实现


我希望这有帮助

您可以查看DataFu的
FirstTupleFromBag()
每个包中都有重复的元组吗?那么,您是否只想从两个包中提取第一个元组并从中提取值?如果您有几乎可以工作的代码,请显示代码,并更准确地描述“它不运行”时发生的情况。