Python 我将数据拆分为测试集和训练集，错误为'；找到样本数不一致的输入变量：[100023486]'；_Python_Pandas_Nlp_Python 3.6_Data Analysis

Python 我将数据拆分为测试集和训练集，错误为'；找到样本数不一致的输入变量：[100023486]'；

python pandas nlp

Python 我将数据拆分为测试集和训练集，错误为'；找到样本数不一致的输入变量：[100023486]'；,python,pandas,nlp,python-3.6,data-analysis,Python,Pandas,Nlp,Python 3.6,Data Analysis,我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据，并使用bag of words模型进行了标记化、矢量化。现在，我必须将数据分散到测试和训练集中，我得到一个错误：“找到了样本数不一致的输入变量：[100023486]” 我的文件有一个名为ReviewText的列，我想将评论分为好的或坏的。我已经附上了tsv文件，我在这个项目中使用。请帮我纠正错误，以及我能做的任何改变。我也在这里附上了代码我的数据文件好的，问题是X和y必须具有相同的维度如果您只想使用1000条评论，您可以使用相同

我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据，并使用bag of words模型进行了标记化、矢量化。现在，我必须将数据分散到测试和训练集中，我得到一个错误：“找到了样本数不一致的输入变量：[100023486]”

我的文件有一个名为ReviewText的列，我想将评论分为好的或坏的。我已经附上了tsv文件，我在这个项目中使用。请帮我纠正错误，以及我能做的任何改变。我也在这里附上了代码

我的数据文件

好的，问题是

和

必须具有相同的维度

如果您只想使用1000条评论，您可以使用相同的

循环，然后在选择y
时只需执行以下操作：
y = dataset.iloc[:1000, 6].values

否则，如果要使用整个数据集，则必须编辑周期的第一部分。哪一行给出了错误？@FedericoAndreoli嘿！所以，最后两行代码“from sklearn.model\u selection…”这行给我“找到的输入变量，样本数不一致”
y = dataset.iloc[:1000, 6].values