Mediawiki 从2010年起,我们在哪里可以获得维基百科每年的垃圾信息?

Mediawiki 从2010年起,我们在哪里可以获得维基百科每年的垃圾信息?,mediawiki,wikipedia,wikipedia-api,wikimedia-dumps,Mediawiki,Wikipedia,Wikipedia Api,Wikimedia Dumps,我想知道是否有前几年(2010-2019年)的英文维基百科(enwiki)页面文章转储 2017年之前的几年中,位于的数据转储torrents似乎没有转储。互联网存档有一些,转储页面有一些信息。互联网存档有一些,转储页面有一些信息。实际上,你不需要它们!如果您需要页面的历史记录,只需下载一个名为history的转储文件。自维基百科诞生以来,它们都进行了修订。您必须解析wikitext才能获得元数据——另一方面,对于任何研究或实际使用来说,这些数据可能比旧的转储更可靠 具体需要下载哪个转储取决于您

我想知道是否有前几年(2010-2019年)的英文维基百科(enwiki)页面文章转储


2017年之前的几年中,位于的数据转储torrents似乎没有转储。

互联网存档有一些,转储页面有一些信息。

互联网存档有一些,转储页面有一些信息。

实际上,你不需要它们!如果您需要页面的历史记录,只需下载一个名为
history
的转储文件。自维基百科诞生以来,它们都进行了修订。您必须解析wikitext才能获得元数据——另一方面,对于任何研究或实际使用来说,这些数据可能比旧的转储更可靠


具体需要下载哪个转储取决于您的用例。您是否只需要修订元数据,并查看哪些用户在何时提交?stub-meta-history.xml是您的选择。您想拥有页面内容并解析所有内容吗?页面元历史将是您的选择。然而,如果你想用enwiki解析这些转储,它真的很大,大约在2016年5月有14个TiB,因为它包含了所有维基百科,包括历史。

实际上,你不需要它们!如果您需要页面的历史记录,只需下载一个名为
history
的转储文件。自维基百科诞生以来,它们都进行了修订。您必须解析wikitext才能获得元数据——另一方面,对于任何研究或实际使用来说,这些数据可能比旧的转储更可靠


具体需要下载哪个转储取决于您的用例。您是否只需要修订元数据,并查看哪些用户在何时提交?stub-meta-history.xml是您的选择。您想拥有页面内容并解析所有内容吗?页面元历史将是您的选择。然而,如果你想用enwiki解析这些转储,它确实很大,2016年5月大约有14个TiB,因为它包含了所有维基百科,包括历史。

谢谢!这很有帮助,谢谢!这很有帮助。这个主意很有趣!你是说?63GB,哎哟。。。但是很明显,根据您的用例,存根元历史只有修订元数据。页面内容将位于页面元历史记录中。最新生成的转储位于,页面元历史(请注意,它非常大),8月份的转储仍在进行中。我将更新我的答案。添加到我的答案中,希望有帮助:)。有趣的想法!你是说?63GB,哎哟。。。但是很明显,根据您的用例,存根元历史只有修订元数据。页面内容将位于页面元历史记录中。最新生成的转储位于,页面元历史(请注意,它非常大),8月份的转储仍在进行中。我将更新我的答案。添加到我的答案中,希望有帮助:)。