Scikit learn 如何在scikit学习中规范化TF*IDF或计数?

Scikit learn 如何在scikit学习中规范化TF*IDF或计数?,scikit-learn,nlp,tf-idf,countvectorizer,Scikit Learn,Nlp,Tf Idf,Countvectorizer,我想检查两个长度不同的文档的余弦相似性(比如一个是一行或两行,另一个是100-200行) 我需要一种在scikit learn中对此进行规范化tfidf或计数向量器的方法。TfidfVectorizer有一个属性norm(请参阅)处理此问题。例如,尝试以下方法: vectorizer=TfidfVectorizer(analyzer='word',stop\u words='english',norm='l2') 这将规范化向量,以说明文档长度的差异。TfidfVectorizer具有处理此问

我想检查两个长度不同的文档的余弦相似性(比如一个是一行或两行,另一个是100-200行)


我需要一种在scikit learn中对此进行规范化tfidf或计数向量器的方法。

TfidfVectorizer有一个属性
norm
(请参阅)处理此问题。例如,尝试以下方法:

vectorizer=TfidfVectorizer(analyzer='word',stop\u words='english',norm='l2')

这将规范化向量,以说明文档长度的差异。

TfidfVectorizer具有处理此问题的属性
norm
(请参阅)。例如,尝试以下方法:

vectorizer=TfidfVectorizer(analyzer='word',stop\u words='english',norm='l2')

这将规范化向量,以说明文档长度的差异。

是否需要使用余弦相似性?或者有其他尝试吗?到目前为止你尝试了什么?@Tiago Duque我需要余弦similarity@dmh使用CountVecorizer的余弦相似性,TFIDF是否需要使用余弦相似性?或者有其他尝试吗?到目前为止你尝试了什么?@Tiago Duque我需要余弦similarity@dmh使用CountVecorizer的余弦相似性