Scikit learn Tfidf矢量器

Scikit learn Tfidf矢量器,scikit-learn,nlp,tokenize,tfidfvectorizer,Scikit Learn,Nlp,Tokenize,Tfidfvectorizer,我从文本评论中获取了一个用于预测情绪的数据集,最初,我清理数据(删除标点符号、删除停止词、标记化)。当我尝试将标记化数据作为TFIDF矢量器的输入时,我得到了 AttributeError:“list”对象没有属性“lower”。请帮我克服这个错误。 []: TF-IDF矢量化处理原始(即未标记化)文本,并自行进行标记化 该方法需要一组字符串。应用NLTK标记化器将审查字符串转换为字符串列表(标记列表) 如果您出于某种原因不信任scikit learn中的内部标记器,则可以使用自定义标记器:

我从文本评论中获取了一个用于预测情绪的数据集,最初,我清理数据(删除标点符号、删除停止词、标记化)。当我尝试将标记化数据作为TFIDF矢量器的输入时,我得到了 AttributeError:“list”对象没有属性“lower”。请帮我克服这个错误。

[]:


TF-IDF矢量化处理原始(即未标记化)文本,并自行进行标记化

该方法需要一组字符串。应用NLTK标记化器将审查字符串转换为字符串列表(标记列表)

如果您出于某种原因不信任scikit learn中的内部标记器,则可以使用自定义标记器:

tfidf=TfidfVectorizer(标记器=nltk.word\u标记化)