Scikit learn 如何在scikit学习中规范化TF*IDF或计数？_Scikit Learn_Nlp_Tf Idf_Countvectorizer

Scikit learn 如何在scikit学习中规范化TF*IDF或计数？

scikit-learn nlp

Scikit learn 如何在scikit学习中规范化TF*IDF或计数？,scikit-learn,nlp,tf-idf,countvectorizer,Scikit Learn,Nlp,Tf Idf,Countvectorizer,我想检查两个长度不同的文档的余弦相似性（比如一个是一行或两行，另一个是100-200行）我需要一种在scikit learn中对此进行规范化tfidf或计数向量器的方法。TfidfVectorizer有一个属性norm（请参阅）处理此问题。例如，尝试以下方法： vectorizer=TfidfVectorizer（analyzer='word'，stop\u words='english'，norm='l2'）这将规范化向量，以说明文档长度的差异。TfidfVectorizer具有处理此问

我想检查两个长度不同的文档的余弦相似性（比如一个是一行或两行，另一个是100-200行）

我需要一种在scikit learn中对此进行规范化tfidf或计数向量器的方法。

TfidfVectorizer有一个属性

norm

（请参阅）处理此问题。例如，尝试以下方法：

vectorizer=TfidfVectorizer（analyzer='word'，stop\u words='english'，norm='l2'）

这将规范化向量，以说明文档长度的差异。

TfidfVectorizer具有处理此问题的属性

norm

（请参阅）。例如，尝试以下方法：

vectorizer=TfidfVectorizer（analyzer='word'，stop\u words='english'，norm='l2'）

这将规范化向量，以说明文档长度的差异。

是否需要使用余弦相似性？或者有其他尝试吗？到目前为止你尝试了什么？@Tiago Duque我需要余弦similarity@dmh使用CountVecorizer的余弦相似性，TFIDF是否需要使用余弦相似性？或者有其他尝试吗？到目前为止你尝试了什么？@Tiago Duque我需要余弦similarity@dmh使用CountVecorizer的余弦相似性