Python 3.x Tfidf矢量器不工作

Python 3.x Tfidf矢量器不工作,python-3.x,nlp,tf-idf,Python 3.x,Nlp,Tf Idf,我有一个语料库(酒店评论),我想做一些NLP过程,包括Tfidf。我的问题是,当我应用Tfidf并打印100个功能时,它不会显示为一个单词,而是整个句子。 这是我的密码: 注意:clean\u doc是一个函数,用于从stopwords、词干等返回我的语料库清理 vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, max_features=100, lowercase = False, ngram_range=(1

我有一个语料库(酒店评论),我想做一些NLP过程,包括Tfidf。我的问题是,当我应用Tfidf并打印100个功能时,它不会显示为一个单词,而是整个句子。 这是我的密码:

注意:clean\u doc是一个函数,用于从stopwords、词干等返回我的语料库清理

vectorizer = TfidfVectorizer(analyzer='word',tokenizer=clean_doc, 
max_features=100, lowercase = False, ngram_range=(1,3), min_df = 1)
vz  = vectorizer.fit_transform(list(data['Review']))
feature_names = vectorizer.get_feature_names()
for feature in feature_names:
  print(feature)
它返回如下内容:

love view  good room
food amazing recommended 
bad services location far
-----

知道为什么吗?提前感谢

您的
clean_doc
功能很可能出现错误。“tokenizer”参数应该是一个以字符串作为输入并返回令牌列表的函数。

能否向我们展示clean_doc函数的代码?您是正确的。函数以列表的形式返回数据。所以我纠正了它。谢谢:)