样本数不一致的Python Sklearn变量

样本数不一致的Python Sklearn变量,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正在学习情绪分析,我有一个评论的数据框架,我必须评估给定的单词列表,并获得这些单词的权重。不幸的是,当我尝试拟合回归时,我得到以下错误: ValueError:找到样本数不一致的输入变量:[11,133401] 我错过了什么? CountVectorizer需要字符串的iterable,并返回表示字数的向量。您已经使用for循环实现了这一点,现在正在尝试使CountVectorizer适合所选单词的计数 假设您只想使用选定的单词作为功能 logreg.fit(X_train, y_train

我正在学习情绪分析,我有一个评论的数据框架,我必须评估给定的单词列表,并获得这些单词的权重。不幸的是,当我尝试拟合回归时,我得到以下错误: ValueError:找到样本数不一致的输入变量:[11,133401]

我错过了什么?

CountVectorizer需要字符串的iterable,并返回表示字数的向量。您已经使用for循环实现了这一点,现在正在尝试使CountVectorizer适合所选单词的计数

假设您只想使用选定的单词作为功能

logreg.fit(X_train, y_train)
没有这种转变就好了

或者,如果你想使用所有的文字作为功能,你可以改变你的X来包含完整的评论

X = products['review'].astype(str)
然后安装计数矢量器,然后使用

logreg.fit(X_train_dtm, y_train)

提供完整的错误消息。@AkshayNevrekar添加了一个屏幕截图。希望对你有帮助。谢谢
logreg.fit(X_train_dtm, y_train)