Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Wiki 如何获得维基百科的子集';s页?_Wiki_Mapreduce_Sample Data - Fatal编程技术网

Wiki 如何获得维基百科的子集';s页?

Wiki 如何获得维基百科的子集';s页?,wiki,mapreduce,sample-data,Wiki,Mapreduce,Sample Data,如何获得维基百科页面的子集(比如100MB)?我发现可以将整个数据集作为XML获取,但更像是1或2 Gig;我不需要那么多 我想尝试实现一个map-reduce算法 话虽如此,如果我能从任何地方找到100兆的文本样本数据,那也不错。例如,堆栈溢出数据库(如果可用)可能大小合适。我愿意接受建议 编辑:有没有不是激流的?我无法在工作时获取这些数据。stackoverflow数据库可用于。如果您想获取stackoverflow数据库的副本,可以从中获取 出于好奇,你为什么要使用这些数据?一个选择是下载

如何获得维基百科页面的子集(比如100MB)?我发现可以将整个数据集作为XML获取,但更像是1或2 Gig;我不需要那么多


我想尝试实现一个map-reduce算法

话虽如此,如果我能从任何地方找到100兆的文本样本数据,那也不错。例如,堆栈溢出数据库(如果可用)可能大小合适。我愿意接受建议


编辑:有没有不是激流的?我无法在工作时获取这些数据。

stackoverflow数据库可用于。

如果您想获取stackoverflow数据库的副本,可以从中获取


出于好奇,你为什么要使用这些数据?

一个选择是下载整个维基百科转储,然后只使用其中的一部分。您可以解压整个文件,然后使用一个简单的脚本将文件拆分为更小的文件(例如),或者如果您担心磁盘空间,您可以编写一个脚本,动态地解压和拆分,然后您可以在任何阶段停止解压过程。如果您对python感到满意的话,可以根据您对动态解压和处理的灵感进行调整(看看mparser.py)


如果你不想下载整个东西,你可以选择结疤。这可能会有所帮助,在这方面也提出了建议。

你可以使用网络爬虫来抓取100MB的数据?

克里斯,你可以编写一个小程序来点击维基百科的“随机页面”链接,直到你得到100MB的网页:。您可能希望丢弃可能获得的任何副本,还可能希望限制每分钟的请求数量(尽管部分文章将由中间web缓存提供,而不是由Wikipedia服务器提供)。但是这应该很容易。

有很多维基百科的转储文件可用。你为什么要选择最大的(英文维基)?维基新闻档案要小得多。

维基百科文章的一个较小的子集包括“元”维基文章。这与整篇文章的数据集采用相同的XML格式,但更小(截至2019年3月约为400MB),因此可以用于软件验证(例如测试GenSim脚本)


你想查找任何带有
-articles.xml.bz2
后缀的文件。

我想尝试实现一个mapreduce算法是的,我在澳大利亚,我们的互联网下载限制有点妨碍下载所有文件。话虽如此,我们都在使用光纤到家庭宽带(100万年后),这会让我们的国家破产,所以我可以一直等待吗/对。然后看看导出功能。如果我理解正确的话,它对服务器和带宽的负担比爬行要轻。你知道,这是个不错的主意。它将给出一个很好的子集。我担心这会花很长时间,这是我唯一的问题。这里有一个最新下载的链接:我们这里讨论的是同一个数据库吗?