Text 维基百科文本下载

Text 维基百科文本下载,text,wikipedia,web-crawler,information-retrieval,Text,Wikipedia,Web Crawler,Information Retrieval,我想为我的大学项目下载完整的维基百科文本。我是否必须编写自己的蜘蛛才能下载此文件,或者是否有在线的维基百科公共数据集 为了给大家介绍一下我的项目,我想从我感兴趣的几篇文章中找出一些有趣的词语。但为了找到这些有趣的单词,我计划应用tf/idf来计算每个单词的词频,并选择频率较高的单词。但要计算tf,我需要知道整个维基百科的总发生率 如何做到这一点?维基百科: 维基百科向感兴趣的用户免费提供所有可用内容的副本。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询(例如用于Wikipedi

我想为我的大学项目下载完整的维基百科文本。我是否必须编写自己的蜘蛛才能下载此文件,或者是否有在线的维基百科公共数据集

为了给大家介绍一下我的项目,我想从我感兴趣的几篇文章中找出一些有趣的词语。但为了找到这些有趣的单词,我计划应用tf/idf来计算每个单词的词频,并选择频率较高的单词。但要计算tf,我需要知道整个维基百科的总发生率

如何做到这一点?维基百科:

维基百科向感兴趣的用户免费提供所有可用内容的副本。这些数据库可用于镜像、个人使用、非正式备份、脱机使用或数据库查询(例如用于Wikipedia:Maintenance)。所有文本内容均根据知识共享署名ShareAlike 3.0许可证(CC-BY-SA)和GNU免费文档许可证(GFDL)获得多重许可。图像和其他文件以不同的术语提供,详见其描述页面。有关遵守这些许可证的建议,请参阅维基百科:版权

看来你也很幸运。从转储部分:

截至2010年3月12日,最新的完整的英语维基百科转储可以在这里找到,这是自2008年以来创建的第一个完整的英语维基百科转储。 请注意,最近的转储(如20100312转储)不完整


因此,数据只有9天的时间:)

请参见

考虑到转储的大小,您可能最好使用英语中的词频,或者使用随机轮询页面(或被查询最多的页面)。有一些基于此API(Ruby、C#、…)构建机器人程序的框架可以帮助您。

如果您需要纯文本版本,而不是Mediawiki XML,则可以在此处下载:

所有最新的维基百科数据集都可以从以下网站下载:
只需确保单击最新的可用日期

我将你的答案投了比其他答案更高的票,原因很简单,因为你所做的比仅仅发布一个链接要多。我只是想确认一下。这是下载所有页面的正确链接吗?是的,这似乎是所有当前页面,并且可能是您想要的,尽管不知道确切的情况很难说。链接已断开。@FilippoCosta仍然有用尽管我已经回答了您的问题,只是指出google有您的答案是不受欢迎的,如果你在谷歌上搜索“下载维基百科全文”,这个链接是第一个点击。我这样说是希望它能帮助你提高谷歌搜索引擎的效率。@SamHolder只是想确认一下。这是下载所有页面的正确链接吗?是的,这似乎是所有当前页面,并且可能是您想要的,尽管不知道确切的情况下,很难说清楚谢谢@Boolean。这很简单,因为点击你的链接似乎没有被任何人在这个时候播种。