Python 清除的文本数据集上的TfidfVectorizer错误
我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时,会出现一个名为“LazyCorpusLoader”的错误,对象不可编辑 审查结果如下所示Python 清除的文本数据集上的TfidfVectorizer错误,python,data-mining,sentiment-analysis,tfidfvectorizer,Python,Data Mining,Sentiment Analysis,Tfidfvectorizer,我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时,会出现一个名为“LazyCorpusLoader”的错误,对象不可编辑 审查结果如下所示 删除html标记 标记文本以删除标点符号 删除停止词 词性标注 使文本柠檬化 在此之后,my dataframe reviewdataset_df有以下列: 评论\u清理->清理评论文本 情绪->情绪标签为积极或消极 然后我用下面的代码分割数据集 #splitting data set into training
- 删除html标记
- 标记文本以删除标点符号
- 删除停止词
- 词性标注
- 使文本柠檬化
#splitting data set into training and testing
X_train,X_test,Y_train,Y_test =train_test_split(reviewDataset_Df.head(10000).review_clean,reviewDataset_Df.head(10000).SENTIMENT,test_size=0.20,random_state=0,shuffle=True)
print('Training data count:'+str(len(X_train)))
print('Test data count:'+str(len(X_test)))
这很有效
然后我使用矢量器使用下面的代码
#vectorizer
tfidf=TfidfVectorizer(sublinear_tf=True,min_df=3,stop_words=english,norm='l2',encoding='utf-8',ngram_range=(1,3))
print("rr")
train_features=tfidf.fit_transform(X_train)
test_features=tfidf.transform(X_test)
train_labels=Y_train
test_labels=Y_test
这将给出一个错误,如下所示:
返回冻结集(停止)
TypeError:“LazyCorpusLoader”对象不可编辑
我搜索并尝试了一些无效的解决方案。如何克服这个错误。我需要对数据集进行矢量化,以便为推荐系统进行培训
注意:我在互联网上搜索并阅读了stackoverflow中类似的问题,但找不到正确的答案。没有正确的错误跟踪,我们只能猜测 由于错误涉及到
stop
,我猜您的变量english
——它根本不在您共享的代码中——设置不当,而不是一组单词
你可能想用stop\u words=“english”
来代替