Python将多个单词视为单个单词

Python将多个单词视为单个单词,python,tf-idf,Python,Tf Idf,在Python中是否有任何方法将多个单词视为单个单词?我已经编写了一个脚本来查找文档集合中单词的Tf Idf值。问题是,它给出了单个单词的Tf Idf。但在某些情况下,我必须将多个单词视为一个单词,例如大数据,机器学习应视为一个单词,并计算这些单词的Tf Idf分数。任何帮助都是非常有用的 我会使用scikit learn和TfidfVectorizer来处理它。调整它的一些参数基本上可以让你完成所有的工作 如果没有一个好的例子,很难展示它的功能 from sklearn.feature_ext

在Python中是否有任何方法将多个单词视为单个单词?我已经编写了一个脚本来查找文档集合中单词的Tf Idf值。问题是,它给出了单个单词的Tf Idf。但在某些情况下,我必须将多个单词视为一个单词,例如大数据机器学习应视为一个单词,并计算这些单词的Tf Idf分数。任何帮助都是非常有用的

我会使用scikit learn和TfidfVectorizer来处理它。调整它的一些参数基本上可以让你完成所有的工作

如果没有一个好的例子,很难展示它的功能

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"    
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)

要知道,
ngram\u range
参数允许您通过选择范围来选择是否感兴趣,例如bigram、trigram等。

显示一些代码。输入?输出?预期输出?显示代码。输入和预期输出将有助于解决问题