Python TFIDFvectorier出错，请选择K测试_Python_Pandas_Scikit Learn_Sklearn Pandas_Tfidfvectorizer

Python TFIDFvectorier出错，请选择K测试

python pandas scikit-learn

Python TFIDFvectorier出错，请选择K测试,python,pandas,scikit-learn,sklearn-pandas,tfidfvectorizer,Python,Pandas,Scikit Learn,Sklearn Pandas,Tfidfvectorizer,我正试图按照本教程进行一些情绪分析，我很确定我的代码在这一点上是完全相同的。然而，我的弓的值有一个关键的差别这是到目前为止我的代码 import nltk import pandas as pd import string from nltk.corpus import stopwords from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.feature_selection import Sele

我正试图按照本教程进行一些情绪分析，我很确定我的代码在这一点上是完全相同的。然而，我的弓的值有一个关键的差别

这是到目前为止我的代码

import nltk
import pandas as pd
import string
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import SelectKBest, chi2


def openFile(path):
    #param path: path/to/file.ext (str)
    #Returns contents of file (str)
    with open(path) as file:
        data = file.read()
    return data

imdb_data = openFile('C:/Users/Flengo/Desktop/sentiment/data/imdb_labelled.txt')
amzn_data = openFile('C:/Users/Flengo/Desktop/sentiment/data/amazon_cells_labelled.txt')
yelp_data = openFile('C:/Users/Flengo/Desktop/sentiment/data/yelp_labelled.txt')


datasets = [imdb_data, amzn_data, yelp_data]

combined_dataset = []
# separate samples from each other
for dataset in datasets:
    combined_dataset.extend(dataset.split('\n'))

# separate each label from each sample
dataset = [sample.split('\t') for sample in combined_dataset]


df = pd.DataFrame(data=dataset, columns=['Reviews', 'Labels'])
df = df[df["Labels"].notnull()]
df = df.sample(frac=1)


labels = df['Labels']
vectorizer = TfidfVectorizer(min_df=15)
bow = vectorizer.fit_transform(df['Reviews'])
len(vectorizer.get_feature_names())

selected_features = SelectKBest(chi2, k=200).fit(bow, labels).get_support(indices=True)
vectorizer = TfidfVectorizer(min_df=15, vocabulary=selected_features)
bow = vectorizer.fit_transform(df['Reviews'])

bow

这是我的结果

这是本教程的结果。

我一直在试图找出问题的症结所在，但我还没有得到任何进展。

问题是你提供的是索引，试着代替真实的声音

试试这个：

selected_features = SelectKBest(chi2, k=200).fit(bow, labels).get_support(indices=True)
vocabulary = np.array(vectorizer.get_feature_names())[selected_features]

vectorizer = TfidfVectorizer(min_df=15, vocabulary=vocabulary) # you need to supply a real vocab here

bow = vectorizer.fit_transform(df['Reviews'])
bow
<3000x200 sparse matrix of type '<class 'numpy.float64'>'
    with 12916 stored elements in Compressed Sparse Row format>

selected\u features=SelectKBest（chi2，k=200）。fit（bow，labels）。get\u support（index=True）
词汇表=np.array（矢量器.get_feature_names（））[选定的_features]
向量器=TfidfVectorizer（最小值=15，词汇表=词汇表）#您需要在此处提供真实的词汇表
bow=vectorizer.fit_变换（df['Reviews']）
弓