Parsing 在哪里可以找到web上的原始文本转储?

Parsing 在哪里可以找到web上的原始文本转储?,parsing,text,nlp,wikipedia,Parsing,Text,Nlp,Wikipedia,我想在我正在编写的程序中做一些文本分析。我正在寻找与维基百科转储(download.wikimedia.com)中提供的文本类似的原始文本的其他来源 我宁愿不必经历抓取网站、解析html、提取文本等麻烦 您想要哪种文本 有许多免费的.txt格式的电子书(小说和非小说)可在 他们也有大量的书籍可供下载。有大量不同格式的电子书(包括纯文本)提供了一个简单的Python API供访问,包括Gutenberg、Reuters、Shakespeare等 >>> from nltk.cor

我想在我正在编写的程序中做一些文本分析。我正在寻找与维基百科转储(download.wikimedia.com)中提供的文本类似的原始文本的其他来源


我宁愿不必经历抓取网站、解析html、提取文本等麻烦

您想要哪种文本

有许多免费的.txt格式的电子书(小说和非小说)可在

他们也有大量的书籍可供下载。

有大量不同格式的电子书(包括纯文本)

提供了一个简单的Python API供访问,包括Gutenberg、Reuters、Shakespeare等

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]