Python 我将数据拆分为测试集和训练集,错误为';找到样本数不一致的输入变量:[100023486]';
我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据,并使用bag of words模型进行了标记化、矢量化。现在,我必须将数据分散到测试和训练集中,我得到一个错误:“找到了样本数不一致的输入变量:[100023486]” 我的文件有一个名为ReviewText的列,我想将评论分为好的或坏的。我已经附上了tsv文件,我在这个项目中使用。请帮我纠正错误,以及我能做的任何改变。我也在这里附上了代码 我的数据文件Python 我将数据拆分为测试集和训练集,错误为';找到样本数不一致的输入变量:[100023486]';,python,pandas,nlp,python-3.6,data-analysis,Python,Pandas,Nlp,Python 3.6,Data Analysis,我的项目是使用nlp将评论分为好的或坏的。我已经导入了数据,并使用bag of words模型进行了标记化、矢量化。现在,我必须将数据分散到测试和训练集中,我得到一个错误:“找到了样本数不一致的输入变量:[100023486]” 我的文件有一个名为ReviewText的列,我想将评论分为好的或坏的。我已经附上了tsv文件,我在这个项目中使用。请帮我纠正错误,以及我能做的任何改变。我也在这里附上了代码 我的数据文件 好的,问题是X和y必须具有相同的维度 如果您只想使用1000条评论,您可以使用相同
好的,问题是
X
和y
必须具有相同的维度
如果您只想使用1000条评论,您可以使用相同的循环,然后在选择y
时只需执行以下操作:
y = dataset.iloc[:1000, 6].values
否则,如果要使用整个数据集,则必须编辑周期的第一部分。哪一行给出了错误?@FedericoAndreoli嘿!所以,最后两行代码“from sklearn.model\u selection…”这行给我“找到的输入变量,样本数不一致”
y = dataset.iloc[:1000, 6].values