Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/asp.net-mvc/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 用nltk实现idf_Python_Nlp_Nltk_Tf Idf - Fatal编程技术网

Python 用nltk实现idf

Python 用nltk实现idf,python,nlp,nltk,tf-idf,Python,Nlp,Nltk,Tf Idf,给出这样一句话:“敏捷的棕色狐狸跳过了懒惰的狗”,我想从nltk语料库(哪一个语料库是最通用/全面的)中得到每个单词出现频率的分数 编辑: 这个问题与这个问题有关:@adi92建议使用idf的技术来计算单词的“稀有性”。我想看看这在实践中会是什么样子。这里更广泛的问题是,你如何计算一个单词在英语中的罕见程度。我知道这是一个很难解决的问题,但是nltk idf(有类似于布朗或路透社语料库的东西)可能会让我们走到这一步。如果你想知道词频,你需要一个词频表。单词的频率因文本类型而异,因此最佳频率表可能

给出这样一句话:“敏捷的棕色狐狸跳过了懒惰的狗”,我想从nltk语料库(哪一个语料库是最通用/全面的)中得到每个单词出现频率的分数

编辑:


这个问题与这个问题有关:@adi92建议使用idf的技术来计算单词的“稀有性”。我想看看这在实践中会是什么样子。这里更广泛的问题是,你如何计算一个单词在英语中的罕见程度。我知道这是一个很难解决的问题,但是nltk idf(有类似于布朗或路透社语料库的东西)可能会让我们走到这一步。

如果你想知道词频,你需要一个词频表。单词的频率因文本类型而异,因此最佳频率表可能基于特定领域的语料库

如果你只是在胡闹,很容易随机挑选一个语料库并统计单词——使用
.words()
和nltk的
FreqDist
,和/或查看nltk书籍了解详细信息


但对于严肃的使用,不要费心自己数词:如果你对某个特定领域不感兴趣,就拿一个大词频表。有无数(显然这是语料库创建者想到的第一件事),最大的可能是谷歌编译的“1克”表格。如果你想知道词频,你需要一个词频表,你可以从

下载它们。单词的频率因文本类型而异,因此最佳频率表可能基于特定领域的语料库

如果你只是在胡闹,很容易随机挑选一个语料库并统计单词——使用
.words()
和nltk的
FreqDist
,和/或查看nltk书籍了解详细信息


但对于严肃的使用,不要费心自己数词:如果你对某个特定领域不感兴趣,就拿一个大词频表。有无数(显然这是语料库创建者想到的第一件事),最大的可能是谷歌编译的“1克”表格。你可以在

下载它们。你有什么问题吗,或者你只是想让别人帮你做你的工作/家庭作业吗?在你提供的测试语料库中,出现了两个“the”和一个“quick”、“brown”、“fox”、“shopped”、“over”、“lazy”和“dogs”。如果这个语料库不够好,请记录您的要求。我在回答中将idf一词与wikipedia文章链接到了大致相同的内容,这解释了推导单词idf的公式。单词的idf是(#语料库中的文档)/(语料库中至少提到该特定单词一次的文档)的对数。。。关于这个公式,你到底混淆了什么,需要解释?只是想找一个nltkDo的例子,你有一个特定的问题,或者你只是想让别人帮你做你的工作/家庭作业?在你提供的测试语料库中,有两个“the”和一个“quick”、“brown”、“fox”、“jumped”、“over”,“懒惰”和“狗”。如果这个语料库不够好,请记录您的要求。我在回答中将idf一词与wikipedia文章联系起来,大致相同,这解释了用于推导单词idf的公式。单词的idf是(#语料库中文档的)的对数/(#语料库中至少有一次提到某个特定单词的文档)…你到底对这个公式的相关内容感到困惑,需要解释什么?只是想找一个nltk的例子