Hadoop 将pig中的行转换为列

Hadoop 将pig中的行转换为列,hadoop,mapreduce,apache-pig,Hadoop,Mapreduce,Apache Pig,我正在使用Wikipedia数据集执行mapreduce。我使用的数据集(Wikipedia Wiki命名空间)来自。bz2文件中的数据如下所示 REVISION 724 234015 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2001-03-28T22:33:49Z ip:Larry_Sanger ip:Larry_Sanger CATEGORY IMAGE MAIN Larry_Sanger LMS Adding_Nupedia_artic

我正在使用Wikipedia数据集执行mapreduce。我使用的数据集(Wikipedia Wiki命名空间)来自。bz2文件中的数据如下所示

REVISION 724 234015 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2001-03-28T22:33:49Z ip:Larry_Sanger ip:Larry_Sanger
CATEGORY
IMAGE
MAIN Larry_Sanger LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia
TALK
USER
USER_TALK
OTHER
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml
TEMPLATE
COMMENT *
MINOR 0
TEXTDATA 685

REVISION 724 431753 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2002-05-19T17:36:09Z Eclecticology 372
CATEGORY
IMAGE
MAIN Larry_Sanger LMS LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia Mores Adding_Wikipedia_articles_to_Nupedia/Help
TALK
USER
USER_TALK
OTHER
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://chalkboard.nupedia.com http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml
TEMPLATE
COMMENT "mores" linked; -/Talk
MINOR 1
TEXTDATA 738
基本上,我希望将每个修订转换为一行,以便一组修订和所有其他详细信息位于一行中。我试着跟随类似的东西,但它不起作用。有人能告诉我怎么做吗?

这是预处理数据最简单(可能不是最优雅)的方法。基于你的链接,我们讨论的是18GB,这是可行的。 无论如何,您必须将数据与模式分开(数据似乎也包含文件名)

为这种类型的数据编写自己的加载程序是一个更好的解决方案。 在这里,您将找到一些示例项目和教程