Python tf idf:我应该规范文档长度吗

Python tf idf:我应该规范文档长度吗,python,normalization,word,tf-idf,Python,Normalization,Word,Tf Idf,使用TF-IDF比较文件A、B时 我知道文件的长度并不重要。 但与A-B相比,A-C 在这种情况下,我认为文档B、C的长度应该是相同的 比如说 日志:100字 文件A:20字 文件B:30字 Log-A的TF-IDF分数:0.xx Log-B的TF-IDF分数:0.xx 我应该对文档A、B进行规范化吗? (如果比较目标不同,则这似乎是一个问题或错误的结果)通常,您希望在数据上做任何能够提供最佳交叉验证结果的事情 如果您所做的只是比较它们的余弦相似性,那么您必须在计算中对向量进行规范化,但由于文档

使用TF-IDF比较文件A、B时 我知道文件的长度并不重要。 但与A-B相比,A-C 在这种情况下,我认为文档B、C的长度应该是相同的

比如说 日志:100字 文件A:20字 文件B:30字

Log-A的TF-IDF分数:0.xx Log-B的TF-IDF分数:0.xx

我应该对文档A、B进行规范化吗?
(如果比较目标不同,则这似乎是一个问题或错误的结果)

通常,您希望在数据上做任何能够提供最佳交叉验证结果的事情

如果您所做的只是比较它们的余弦相似性,那么您必须在计算中对向量进行规范化,但由于文档长度不同,这不会影响分数。许多通用文档检索系统认为较短的文档更有价值,但在计算出相似性之后,通常将其处理为分数乘法器。
通常使用ln(TF)代替原始TF分数作为标准化特征,因为看一个术语1和2次之间的差异比看一个术语100和200次之间的差异更重要;它还可以防止过度使用术语主导向量,并且通常更加健壮。

感谢您的评论。我有个问题。。我发现“Ngram”只是在使用TF。Ngram是否需要规范化文档?我认为tf idf和Ngram有相似的算法。@Acool5这是完全相同的算法,唯一的区别是,在使用Ngram时,术语集通常会增加。