在hadoop中为pagerank使用wikipedia数据集_Hadoop_Mapreduce_Wikipedia_Pagerank

在hadoop中为pagerank使用wikipedia数据集

hadoop mapreduce

在hadoop中为pagerank使用wikipedia数据集,hadoop,mapreduce,wikipedia,pagerank,Hadoop,Mapreduce,Wikipedia,Pagerank,我将使用ApacheHadoop做一个关于pagerank和维基百科数据集反向索引的项目。我下载了整个wiki转储-。它解压缩为一个42GB.xml文件。我想以某种方式处理这个文件，以获得适合pagerank和反向索引MapReduce算法输入的数据。请帮忙！任何线索都会有帮助。你的问题我不太清楚。你需要什么样的想法首先要考虑的是在MR作业中如何处理这个xml文件。MR框架不为xml文件提供任何内置输入格式。为此，您可能需要了解一下。您需要编写自己的Inputformat来处理XML。您还需要

我将使用ApacheHadoop做一个关于pagerank和维基百科数据集反向索引的项目。我下载了整个wiki转储-。它解压缩为一个42GB.xml文件。我想以某种方式处理这个文件，以获得适合pagerank和反向索引MapReduce算法输入的数据。请帮忙！任何线索都会有帮助。

你的问题我不太清楚。你需要什么样的想法

首先要考虑的是在MR作业中如何处理这个xml文件。MR框架不为xml文件提供任何内置输入格式。为此，您可能需要了解一下。

您需要编写自己的Inputformat来处理XML。您还需要实现一个RecordReader，以确保InputSplit具有完整格式的XML块，而不仅仅是一行。请参阅。

如果您正在查找有关哪些页面链接到同一wiki上的其他页面的信息，则

pagelinks

dump包含该信息（您可能还需要

页面

dump）。@svick-没错！但是我如何从一个42 GB.xml的大文件中提取这两个文件呢。只需下载两个SQL转储。@svick ok！另外，我需要做反向索引，我需要整个维基百科的文章。我是如何从我下载的那个大文件或任何其他单独的文件中得到它的？我想知道如何从这个大文件中提取pagelinks.sql.gz和page.sql.gz文件。这两个文件包含所有我需要输入到pagerank！好啊现在我明白了！将很快尝试实施：）。谢谢还有，有没有软件可以打开/编辑这个大的.xml文件（42 GB）？？在一台机器上编辑42 GB的文件会很痛苦（这就是为什么我们使用MR）。如果您想提取一些示例以了解xmls的外观，请尝试unix head或更多命令。谢谢！！你真的很有帮助！