Text 有大量人类文本的资源吗?

Text 有大量人类文本的资源吗?,text,markov,Text,Markov,我刚刚编写了一个马尔可夫链,它基于所学的数据进行对话。我想在网上找到一个包含大量文本数据的资源,但似乎找不到(像维基百科这样的大多数网站都有很多垃圾,而不是纯文本文件) 是否有任何网站有大量适合测试马尔可夫链的文本文件?您尝试过NLTK文本语料库吗?您尝试过NLTK文本语料库吗?如果您担心的只是从维基百科中删除标记,那么使用类似这样的源代码,他们会为您删除标记,怎么样 如果您关心的只是从wikipedia中删除标记,那么使用这样的源代码,他们会为您删除标记,怎么样 gutenberg.org可能

我刚刚编写了一个马尔可夫链,它基于所学的数据进行对话。我想在网上找到一个包含大量文本数据的资源,但似乎找不到(像维基百科这样的大多数网站都有很多垃圾,而不是纯文本文件)


是否有任何网站有大量适合测试马尔可夫链的文本文件?

您尝试过NLTK文本语料库吗?

您尝试过NLTK文本语料库吗?

如果您担心的只是从维基百科中删除标记,那么使用类似这样的源代码,他们会为您删除标记,怎么样


如果您关心的只是从wikipedia中删除标记,那么使用这样的源代码,他们会为您删除标记,怎么样


gutenberg.org可能会为您提供一些资源。例如,这是一堆文本文件形式的白鲸


gutenberg.org可能会为您提供一些资源。例如,这是一堆文本文件形式的白鲸


考虑一下安然电子邮件数据集:


它也托管在Amazon AWS上:

考虑一下安然电子邮件数据集:


它也在亚马逊AWS上发布:

这些通常是单词,而不是完整的句子吗?它们包括许多句子,如总统演讲、书籍等。这些通常不是单词,而不是完整的句子吗?它们包括许多句子,如总统演讲、书籍等。