Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 清除的文本数据集上的TfidfVectorizer错误_Python_Data Mining_Sentiment Analysis_Tfidfvectorizer - Fatal编程技术网

Python 清除的文本数据集上的TfidfVectorizer错误

Python 清除的文本数据集上的TfidfVectorizer错误,python,data-mining,sentiment-analysis,tfidfvectorizer,Python,Data Mining,Sentiment Analysis,Tfidfvectorizer,我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时,会出现一个名为“LazyCorpusLoader”的错误,对象不可编辑 审查结果如下所示 删除html标记 标记文本以删除标点符号 删除停止词 词性标注 使文本柠檬化 在此之后,my dataframe reviewdataset_df有以下列: 评论\u清理->清理评论文本 情绪->情绪标签为积极或消极 然后我用下面的代码分割数据集 #splitting data set into training

我正在尝试对情绪数据集进行矢量化。它具有给定的评论文本和标签。当我尝试对数据集进行矢量化时,会出现一个名为“LazyCorpusLoader”的错误,对象不可编辑

审查结果如下所示

  • 删除html标记
  • 标记文本以删除标点符号
  • 删除停止词
  • 词性标注
  • 使文本柠檬化
在此之后,my dataframe reviewdataset_df有以下列:

  • 评论\u清理->清理评论文本
  • 情绪->情绪标签为积极或消极
  • 然后我用下面的代码分割数据集

    #splitting data set into training and testing
    X_train,X_test,Y_train,Y_test =train_test_split(reviewDataset_Df.head(10000).review_clean,reviewDataset_Df.head(10000).SENTIMENT,test_size=0.20,random_state=0,shuffle=True)                                          
    
    print('Training data count:'+str(len(X_train)))
    print('Test data count:'+str(len(X_test)))
    
    这很有效

    然后我使用矢量器使用下面的代码

    #vectorizer
    tfidf=TfidfVectorizer(sublinear_tf=True,min_df=3,stop_words=english,norm='l2',encoding='utf-8',ngram_range=(1,3))
    print("rr")
    train_features=tfidf.fit_transform(X_train)
    test_features=tfidf.transform(X_test)
    train_labels=Y_train
    test_labels=Y_test
    
    这将给出一个错误,如下所示: 返回冻结集(停止) TypeError:“LazyCorpusLoader”对象不可编辑

    我搜索并尝试了一些无效的解决方案。如何克服这个错误。我需要对数据集进行矢量化,以便为推荐系统进行培训


    注意:我在互联网上搜索并阅读了stackoverflow中类似的问题,但找不到正确的答案。

    没有正确的错误跟踪,我们只能猜测

    由于错误涉及到
    stop
    ,我猜您的变量
    english
    ——它根本不在您共享的代码中——设置不当,而不是一组单词

    你可能想用
    stop\u words=“english”
    来代替