在hadoop中为pagerank使用wikipedia数据集

在hadoop中为pagerank使用wikipedia数据集,hadoop,mapreduce,wikipedia,pagerank,Hadoop,Mapreduce,Wikipedia,Pagerank,我将使用ApacheHadoop做一个关于pagerank和维基百科数据集反向索引的项目。我下载了整个wiki转储-。它解压缩为一个42GB.xml文件。我想以某种方式处理这个文件,以获得适合pagerank和反向索引MapReduce算法输入的数据。请帮忙!任何线索都会有帮助。你的问题我不太清楚。你需要什么样的想法 首先要考虑的是在MR作业中如何处理这个xml文件。MR框架不为xml文件提供任何内置输入格式。为此,您可能需要了解一下。您需要编写自己的Inputformat来处理XML。您还需要

我将使用ApacheHadoop做一个关于pagerank和维基百科数据集反向索引的项目。我下载了整个wiki转储-。它解压缩为一个42GB.xml文件。我想以某种方式处理这个文件,以获得适合pagerank和反向索引MapReduce算法输入的数据。请帮忙!任何线索都会有帮助。

你的问题我不太清楚。你需要什么样的想法


首先要考虑的是在MR作业中如何处理这个xml文件。MR框架不为xml文件提供任何内置输入格式。为此,您可能需要了解一下。

您需要编写自己的Inputformat来处理XML。您还需要实现一个RecordReader,以确保InputSplit具有完整格式的XML块,而不仅仅是一行。请参阅。

如果您正在查找有关哪些页面链接到同一wiki上的其他页面的信息,则
pagelinks
dump包含该信息(您可能还需要
页面
dump)。@svick-没错!但是我如何从一个42 GB.xml的大文件中提取这两个文件呢。只需下载两个SQL转储。@svick ok!另外,我需要做反向索引,我需要整个维基百科的文章。我是如何从我下载的那个大文件或任何其他单独的文件中得到它的?我想知道如何从这个大文件中提取pagelinks.sql.gz和page.sql.gz文件。这两个文件包含所有我需要输入到pagerank!好啊现在我明白了!将很快尝试实施:)。谢谢还有,有没有软件可以打开/编辑这个大的.xml文件(42 GB)??在一台机器上编辑42 GB的文件会很痛苦(这就是为什么我们使用MR)。如果您想提取一些示例以了解xmls的外观,请尝试unix head或更多命令。谢谢!!你真的很有帮助!