Python tf idf：我应该规范文档长度吗_Python_Normalization_Word_Tf Idf

Python tf idf：我应该规范文档长度吗

python

Python tf idf：我应该规范文档长度吗,python,normalization,word,tf-idf,Python,Normalization,Word,Tf Idf,使用TF-IDF比较文件A、B时我知道文件的长度并不重要。但与A-B相比，A-C 在这种情况下，我认为文档B、C的长度应该是相同的比如说日志：100字文件A:20字文件B：30字 Log-A的TF-IDF分数：0.xx Log-B的TF-IDF分数：0.xx 我应该对文档A、B进行规范化吗？（如果比较目标不同，则这似乎是一个问题或错误的结果）通常，您希望在数据上做任何能够提供最佳交叉验证结果的事情如果您所做的只是比较它们的余弦相似性，那么您必须在计算中对向量进行规范化，但由于文档

使用TF-IDF比较文件A、B时我知道文件的长度并不重要。但与A-B相比，A-C 在这种情况下，我认为文档B、C的长度应该是相同的

比如说日志：100字文件A:20字文件B：30字

Log-A的TF-IDF分数：0.xx Log-B的TF-IDF分数：0.xx

我应该对文档A、B进行规范化吗？

（如果比较目标不同，则这似乎是一个问题或错误的结果）

通常，您希望在数据上做任何能够提供最佳交叉验证结果的事情

如果您所做的只是比较它们的余弦相似性，那么您必须在计算中对向量进行规范化，但由于文档长度不同，这不会影响分数。许多通用文档检索系统认为较短的文档更有价值，但在计算出相似性之后，通常将其处理为分数乘法器。

通常使用ln（TF）代替原始TF分数作为标准化特征，因为看一个术语1和2次之间的差异比看一个术语100和200次之间的差异更重要；它还可以防止过度使用术语主导向量，并且通常更加健壮。

感谢您的评论。我有个问题。。我发现“Ngram”只是在使用TF。Ngram是否需要规范化文档？我认为tf idf和Ngram有相似的算法。@Acool5这是完全相同的算法，唯一的区别是，在使用Ngram时，术语集通常会增加。