Nlp 提供包含该术语的文档数的资源

Nlp 提供包含该术语的文档数的资源,nlp,stanford-nlp,opennlp,corpus,Nlp,Stanford Nlp,Opennlp,Corpus,我正在寻找的资源,提供了一个学期涉及的文件数量。例如,在索引的internet中,大约有250亿个文档包含术语“the”。我不知道任何大型语料库(如web)的文档频率列表,但有一些术语频率列表可用。例如,有20亿ukWaC英语网络语料库。另一种选择是 因此,可以使用这种术语频率计数来可靠地近似文档频率计数 是更容易治疗的频率 还可以看一看——它包含了大量关于现有语料库和单词/语法表的信息。不幸的是,大多数资源都是付费的,但不是n-gram(对于n>1),因此如果您要处理多词术语,它会有所帮助。谢

我正在寻找的资源,提供了一个学期涉及的文件数量。例如,在索引的internet中,大约有250亿个文档包含术语“the”。

我不知道任何大型语料库(如web)的文档频率列表,但有一些术语频率列表可用。例如,有20亿ukWaC英语网络语料库。另一种选择是

因此,可以使用这种术语频率计数来可靠地近似文档频率计数

是更容易治疗的频率


还可以看一看——它包含了大量关于现有语料库和单词/语法表的信息。不幸的是,大多数资源都是付费的,但不是n-gram(对于n>1),因此如果您要处理多词术语,它会有所帮助。

谢谢您,您的指针提供了帮助。然而,下载大文件,尤其是从谷歌下载,使我的电脑崩溃。哈哈哈