Python术语频率矢量器_Python_Scikit Learn_Tf Idf

Python术语频率矢量器

python scikit-learn

Python术语频率矢量器,python,scikit-learn,tf-idf,Python,Scikit Learn,Tf Idf,借助Pythons的软件包scikit learn，我们可以轻松地将文档列表转换为具有以下功能的数据集：-频率反转文档频率，其中术语是文档中出现的单词 Python中的任何地方都是TfidfVectorizer与TfidfVectorizer的类似物，它会产生-frequency特性，即，我们不会通过反向文档频率对特性的值进行加权吗与其他编程语言编写的解决方案相比，我更喜欢Python解决方案，但如果您知道Java中的任何易于使用的实现，您也可以提及它。是的。它也在scikit learn中，

借助Pythons的软件包scikit learn，我们可以轻松地将文档列表转换为具有以下功能的数据集：

-频率反转文档频率

，其中

术语

是文档中出现的单词

Python中的任何地方都是TfidfVectorizer与TfidfVectorizer的类似物，它会产生

-frequency

特性，即，我们不会通过反向文档频率对特性的值进行加权吗

与其他编程语言编写的解决方案相比，我更喜欢Python解决方案，但如果您知道Java中的任何易于使用的实现，您也可以提及它。

是的。它也在scikit learn中，被称为

CountVectorizer

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

data = ['this is sample 1', 'how about sample two', 'make three samples']
vectorizer = CountVectorizer()

transformed_data = vectorizer.fit_transform(data)

print (zip(vectorizer.get_feature_names(), np.ravel(transformed_data.sum(axis=0))))

输出：

[(u'about', 1),
 (u'how', 1),
 (u'is', 1),
 (u'make', 1),
 (u'sample', 2),
 (u'samples', 1),
 (u'this', 1),
 (u'three', 1),
 (u'two', 1)]