Python 我将数据拆分为测试集和训练集,错误为';找到样本数不一致的输入变量:[100023486]';

Python 我将数据拆分为测试集和训练集,错误为';找到样本数不一致的输入变量:[100023486]';,python,pandas,nlp,python-3.6,data-analysis,Python,Pandas,Nlp,Python 3.6,Data Analysis,我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据,并使用bag of words模型进行了标记化、矢量化。现在,我必须将数据分散到测试和训练集中,我得到一个错误:“找到了样本数不一致的输入变量:[100023486]” 我的文件有一个名为ReviewText的列,我想将评论分为好的或坏的。我已经附上了tsv文件,我在这个项目中使用。请帮我纠正错误,以及我能做的任何改变。我也在这里附上了代码 我的数据文件 好的,问题是X和y必须具有相同的维度 如果您只想使用1000条评论,您可以使用相同

我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据,并使用bag of words模型进行了标记化、矢量化。现在,我必须将数据分散到测试和训练集中,我得到一个错误:“找到了样本数不一致的输入变量:[100023486]”

我的文件有一个名为ReviewText的列,我想将评论分为好的或坏的。我已经附上了tsv文件,我在这个项目中使用。请帮我纠正错误,以及我能做的任何改变。我也在这里附上了代码

我的数据文件


好的,问题是
X
y
必须具有相同的维度

如果您只想使用1000条评论,您可以使用相同的
循环,然后在选择
y
时只需执行以下操作:

y = dataset.iloc[:1000, 6].values

否则,如果要使用整个数据集,则必须编辑周期的第一部分。

哪一行给出了错误?@FedericoAndreoli嘿!所以,最后两行代码“from sklearn.model\u selection…”这行给我“找到的输入变量,样本数不一致”
y = dataset.iloc[:1000, 6].values