Wiki 如何获得维基百科的子集'；s页？_Wiki_Mapreduce_Sample Data

Wiki 如何获得维基百科的子集'；s页？

mapreduce

Wiki 如何获得维基百科的子集'；s页？,wiki,mapreduce,sample-data,Wiki,Mapreduce,Sample Data,如何获得维基百科页面的子集（比如100MB）？我发现可以将整个数据集作为XML获取，但更像是1或2 Gig；我不需要那么多我想尝试实现一个map-reduce算法话虽如此，如果我能从任何地方找到100兆的文本样本数据，那也不错。例如，堆栈溢出数据库（如果可用）可能大小合适。我愿意接受建议编辑：有没有不是激流的？我无法在工作时获取这些数据。stackoverflow数据库可用于。如果您想获取stackoverflow数据库的副本，可以从中获取出于好奇，你为什么要使用这些数据？一个选择是下载

如何获得维基百科页面的子集（比如100MB）？我发现可以将整个数据集作为XML获取，但更像是1或2 Gig；我不需要那么多

我想尝试实现一个map-reduce算法

话虽如此，如果我能从任何地方找到100兆的文本样本数据，那也不错。例如，堆栈溢出数据库（如果可用）可能大小合适。我愿意接受建议

编辑：有没有不是激流的？我无法在工作时获取这些数据。

stackoverflow数据库可用于。

如果您想获取stackoverflow数据库的副本，可以从中获取

出于好奇，你为什么要使用这些数据？

一个选择是下载整个维基百科转储，然后只使用其中的一部分。您可以解压整个文件，然后使用一个简单的脚本将文件拆分为更小的文件（例如），或者如果您担心磁盘空间，您可以编写一个脚本，动态地解压和拆分，然后您可以在任何阶段停止解压过程。如果您对python感到满意的话，可以根据您对动态解压和处理的灵感进行调整（看看mparser.py）

如果你不想下载整个东西，你可以选择结疤。这可能会有所帮助，在这方面也提出了建议。

你可以使用网络爬虫来抓取100MB的数据？

克里斯，你可以编写一个小程序来点击维基百科的“随机页面”链接，直到你得到100MB的网页：。您可能希望丢弃可能获得的任何副本，还可能希望限制每分钟的请求数量（尽管部分文章将由中间web缓存提供，而不是由Wikipedia服务器提供）。但是这应该很容易。

有很多维基百科的转储文件可用。你为什么要选择最大的（英文维基）？维基新闻档案要小得多。

维基百科文章的一个较小的子集包括“元”维基文章。这与整篇文章的数据集采用相同的XML格式，但更小（截至2019年3月约为400MB），因此可以用于软件验证（例如测试GenSim脚本）

你想查找任何带有

-articles.xml.bz2

后缀的文件。

我想尝试实现一个mapreduce算法是的，我在澳大利亚，我们的互联网下载限制有点妨碍下载所有文件。话虽如此，我们都在使用光纤到家庭宽带（100万年后），这会让我们的国家破产，所以我可以一直等待吗/对。然后看看导出功能。如果我理解正确的话，它对服务器和带宽的负担比爬行要轻。你知道，这是个不错的主意。它将给出一个很好的子集。我担心这会花很长时间，这是我唯一的问题。这里有一个最新下载的链接：我们这里讨论的是同一个数据库吗？