Parsing 在哪里可以找到web上的原始文本转储？_Parsing_Text_Nlp_Wikipedia

Parsing 在哪里可以找到web上的原始文本转储？

parsing text nlp

Parsing 在哪里可以找到web上的原始文本转储？,parsing,text,nlp,wikipedia,Parsing,Text,Nlp,Wikipedia,我想在我正在编写的程序中做一些文本分析。我正在寻找与维基百科转储（download.wikimedia.com）中提供的文本类似的原始文本的其他来源我宁愿不必经历抓取网站、解析html、提取文本等麻烦您想要哪种文本有许多免费的.txt格式的电子书（小说和非小说）可在他们也有大量的书籍可供下载。有大量不同格式的电子书（包括纯文本）提供了一个简单的Python API供访问，包括Gutenberg、Reuters、Shakespeare等 >>> from nltk.cor

我想在我正在编写的程序中做一些文本分析。我正在寻找与维基百科转储（download.wikimedia.com）中提供的文本类似的原始文本的其他来源

我宁愿不必经历抓取网站、解析html、提取文本等麻烦

您想要哪种文本

有许多免费的.txt格式的电子书（小说和非小说）可在

他们也有大量的书籍可供下载。

有大量不同格式的电子书（包括纯文本）

提供了一个简单的Python API供访问，包括Gutenberg、Reuters、Shakespeare等

>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]