Python术语频率矢量器

Python术语频率矢量器,python,scikit-learn,tf-idf,Python,Scikit Learn,Tf Idf,借助Pythons的软件包scikit learn,我们可以轻松地将文档列表转换为具有以下功能的数据集:-频率反转文档频率,其中术语是文档中出现的单词 Python中的任何地方都是TfidfVectorizer与TfidfVectorizer的类似物,它会产生-frequency特性,即,我们不会通过反向文档频率对特性的值进行加权吗 与其他编程语言编写的解决方案相比,我更喜欢Python解决方案,但如果您知道Java中的任何易于使用的实现,您也可以提及它。是的。它也在scikit learn中,

借助Pythons的软件包scikit learn,我们可以轻松地将文档列表转换为具有以下功能的数据集:
-频率反转文档频率
,其中
术语
是文档中出现的单词

Python中的任何地方都是TfidfVectorizer与TfidfVectorizer的类似物,它会产生
-frequency
特性,即,我们不会通过反向文档频率对特性的值进行加权吗


与其他编程语言编写的解决方案相比,我更喜欢Python解决方案,但如果您知道Java中的任何易于使用的实现,您也可以提及它。

是的。它也在scikit learn中,被称为
CountVectorizer

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

data = ['this is sample 1', 'how about sample two', 'make three samples']
vectorizer = CountVectorizer()

transformed_data = vectorizer.fit_transform(data)

print (zip(vectorizer.get_feature_names(), np.ravel(transformed_data.sum(axis=0))))
输出:

[(u'about', 1),
 (u'how', 1),
 (u'is', 1),
 (u'make', 1),
 (u'sample', 2),
 (u'samples', 1),
 (u'this', 1),
 (u'three', 1),
 (u'two', 1)]