Apache pig 如何在清管器中将一根绳子分成相等的部分?

Apache pig 如何在清管器中将一根绳子分成相等的部分?,apache-pig,Apache Pig,我有一个输入文件abcdefghijklmnopqrstuvxx。使用pig命令如何生成如下所示的文本文件。 基础知识 DEF GHI JKL MNO等 编辑:进一步澄清 我有一个文件,它在一行中包含字符串数据类型的数据。我想根据用户定义的长度拆分此字符串 例如,字符串可能是asdfghjklasdfghjkl,用户将字符串长度定义为4 然后我希望我的输出是asdf ghjk lasd fghj等等。此外,我希望这项工作是地图还原的输入数据将是巨大的规模 关于具体要求,这个问题非常不清楚 因此,

我有一个输入文件abcdefghijklmnopqrstuvxx。使用pig命令如何生成如下所示的文本文件。 基础知识 DEF GHI JKL MNO等

编辑:进一步澄清 我有一个文件,它在一行中包含字符串数据类型的数据。我想根据用户定义的长度拆分此字符串

例如,字符串可能是asdfghjklasdfghjkl,用户将字符串长度定义为4


然后我希望我的输出是asdf ghjk lasd fghj等等。此外,我希望这项工作是地图还原的输入数据将是巨大的规模

关于具体要求,这个问题非常不清楚

因此,在不讨论细节的情况下,我将做以下几点:

  • 编写一个简单的python函数,该函数接受一行并将其拆分为“相等部分”
  • 在pig中,通过此用户定义函数的流
  • 在注释后更新,完整输入为1行 我不认为Pig能够有效地处理这个问题,因为您只有一条输入线,并且Pig通过分配(输入)线来并行化


    <>但是,你的操作非常简单,人们会期望即使没有MapReduce的简单循环也足够快,考虑一下试试。(之后你会有很多短线,而Pig可能会在后续步骤中完美地处理这些短线)。

    关于具体要求,这个问题非常不清楚

    因此,在不讨论细节的情况下,我将做以下几点:

  • 编写一个简单的python函数,该函数接受一行并将其拆分为“相等部分”
  • 在pig中,通过此用户定义函数的流
  • 在注释后更新,完整输入为1行 我不认为Pig能够有效地处理这个问题,因为您只有一条输入线,并且Pig通过分配(输入)线来并行化


    <>但是,你的操作非常简单,人们会期望即使没有MapReduce的简单循环也足够快,考虑一下试试。(之后你会有很多短线,Pig在以后的步骤中可以很好地处理这些短线)。

    编写一个自定义UDF来完成任务。定义相等?长度永远是3吗?不,它不会永远是3,它可能会变化。@shryaskothavade请澄清你的意思是什么?如果它是一个主要数字?写一个自定义自定义自定义项来完成任务。定义相等?长度永远是3吗?不,它不会永远是3,它可能会变化。@shryaskothavade请澄清你的意思是什么?如果它是一个主要的数字?问题是,我有一个文件,它在一行中包含字符串数据类型的数据。我想根据用户定义的长度拆分此字符串。例如,字符串可能是asdfghjklasdfghjkl,用户将字符串长度定义为4。然后我希望我的输出是asdf ghjk lasd fghj等等。此外,我希望这项工作是地图还原的输入数据将是巨大的规模。我该怎么办?@shryaskothavade我已经更新了我的答案,因为我不认为pig是解决这个问题的方法。问题是,我有一个文件,其中一行包含字符串数据类型的数据。我想根据用户定义的长度拆分此字符串。例如,字符串可能是asdfghjklasdfghjkl,用户将字符串长度定义为4。然后我希望我的输出是asdf ghjk lasd fghj等等。此外,我希望这项工作是地图还原的输入数据将是巨大的规模。我该怎么办?@shryaskothavade我已经更新了我的答案,因为我不认为猪是我的出路。