Python 清除的文本数据集上的TfidfVectorizer错误_Python_Data Mining_Sentiment Analysis_Tfidfvectorizer

Python 清除的文本数据集上的TfidfVectorizer错误

python

Python 清除的文本数据集上的TfidfVectorizer错误,python,data-mining,sentiment-analysis,tfidfvectorizer,Python,Data Mining,Sentiment Analysis,Tfidfvectorizer,我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时，会出现一个名为“LazyCorpusLoader”的错误，对象不可编辑审查结果如下所示删除html标记标记文本以删除标点符号删除停止词词性标注使文本柠檬化在此之后，my dataframe reviewdataset_df有以下列：评论\u清理->清理评论文本情绪->情绪标签为积极或消极然后我用下面的代码分割数据集 #splitting data set into training

我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时，会出现一个名为“LazyCorpusLoader”的错误，对象不可编辑

审查结果如下所示

删除html标记
标记文本以删除标点符号
删除停止词
词性标注
使文本柠檬化

在此之后，my dataframe reviewdataset_df有以下列：

评论\u清理->清理评论文本

情绪->情绪标签为积极或消极

然后我用下面的代码分割数据集

#splitting data set into training and testing
X_train,X_test,Y_train,Y_test =train_test_split(reviewDataset_Df.head(10000).review_clean,reviewDataset_Df.head(10000).SENTIMENT,test_size=0.20,random_state=0,shuffle=True)                                          

print('Training data count:'+str(len(X_train)))
print('Test data count:'+str(len(X_test)))

这很有效

然后我使用矢量器使用下面的代码

#vectorizer
tfidf=TfidfVectorizer(sublinear_tf=True,min_df=3,stop_words=english,norm='l2',encoding='utf-8',ngram_range=(1,3))
print("rr")
train_features=tfidf.fit_transform(X_train)
test_features=tfidf.transform(X_test)
train_labels=Y_train
test_labels=Y_test

这将给出一个错误，如下所示： 返回冻结集（停止） TypeError:“LazyCorpusLoader”对象不可编辑

我搜索并尝试了一些无效的解决方案。如何克服这个错误。我需要对数据集进行矢量化，以便为推荐系统进行培训

注意：我在互联网上搜索并阅读了stackoverflow中类似的问题，但找不到正确的答案。

没有正确的错误跟踪，我们只能猜测

由于错误涉及到

stop

，我猜您的变量

english

——它根本不在您共享的代码中——设置不当，而不是一组单词

你可能想用

stop\u words=“english”

来代替