Nlp tf idf使用谷歌提供的单克频率数据

Nlp tf idf使用谷歌提供的单克频率数据,nlp,tf-idf,Nlp,Tf Idf,我正试图找出一套政府文件中的重要术语。生成术语频率没有问题 对于文档频率,我希望使用Peter Norvig在《美丽的数据》一章中发布的频率,其中包括来自Web的大量数据中的Unigram的频率 然而,我对tf idf的理解是,“文档频率”指的是包含一个术语的文档数量,而不是这个术语的总字数,这是我们从Norvig脚本中得到的。我还可以将这些数据用于原始tf idf操作吗 以下是一些示例数据: word tf global frequency china 1684

我正试图找出一套政府文件中的重要术语。生成术语频率没有问题

对于文档频率,我希望使用Peter Norvig在《美丽的数据》一章中发布的频率,其中包括来自Web的大量数据中的Unigram的频率

然而,我对tf idf的理解是,“文档频率”指的是包含一个术语的文档数量,而不是这个术语的总字数,这是我们从Norvig脚本中得到的。我还可以将这些数据用于原始tf idf操作吗

以下是一些示例数据:

word    tf       global frequency
china   1684     0.000121447
the     352385   0.022573582
economy 6602     0.0000451130774123
and     160794   0.012681757
iran    2779     0.0000231482902018
romney  1159     0.000000678497795593 

简单地将tf除以gf,得到的分数“the”比“economy”高,这是不对的。也许我缺少一些基本的数学知识

据我所知,全局频率等于此处提到的“逆总项频率”。根据罗伯逊的论文:

One possible way to get away from this problem would be to make a fairly radical re-
placement for IDF (that is, radical in principle, although it may be not so radical 
in terms of its practical effects). ....
the probability from the event space of documents to the event space of term positions 
in the concatenated text of all the documents in the collection. 
Then we have a new measure, called here 
inverse total term frequency:
...
On the whole, experiments with inverse total term frequency weights have tended to show
that they are not as effective as IDF weights
根据本文,您可以使用逆全局频率作为IDF项,尽管比标准项更粗糙


此外,您还缺少删除。几乎所有文档中都会使用诸如的词语,因此它们不会提供任何信息。在tf idf之前,您应该删除这些停止词。

好的,当然,但仍然存在一个基本问题,即全球频率是否可以替代文档频率。我不认为全球频率在这里是相反的-“the”的gf最高,其次是and,而“china”等要低得多。但这是一个伟大的线索,谢谢你!你们应该反其道而行之,就像你们做的“简单地将tf除以gf”这个有趣的问题一样。我的理解是:你所说的gf实际上已经是相反的了,对吗?所以当你说用
tf
除以
gf
时,你实际上是指用
tf
乘以
gf
,对吧?我不相信gf是相反的。在庞大的语料库中,“The”占所有单词的2.2%,而“and”占1.2%,而“china”占0.012%。哦,那么你已经将全球词数除以总词数,得到了
gf
。这应该会给出合理的结果(尽管这种划分当然是不必要的,因为它所做的唯一事情就是引入一个常数因子)。实际上,从你的表中用
tf
除以
gf
得到的“And”值约为15610504,而“economy”值为14634374。那有什么不好?