Python 如何在sklearn中拆分测试列车？返回的类型错误_Python_Dataframe_Typeerror_Countvectorizer

Python 如何在sklearn中拆分测试列车？返回的类型错误

python dataframe

Python 如何在sklearn中拆分测试列车？返回的类型错误,python,dataframe,typeerror,countvectorizer,Python,Dataframe,Typeerror,Countvectorizer,我是pyspark的新手，我正在尝试在测试和训练集上分割我的数据帧，然后应用朴素贝叶斯我有一个数据框，它由两列组成：文本和星星（标签）这是我的代码： df3= df2.select( "text", "stars") text_train, text_test, label_train, label_test = train_test_split(df3['text'], df3['stars'], random_state = 1) 不幸的是，我得到了类型错误： TypeError:Co

我是pyspark的新手，我正在尝试在测试和训练集上分割我的数据帧，然后应用朴素贝叶斯

我有一个数据框，它由两列组成：文本和星星（标签）

这是我的代码：

df3= df2.select( "text", "stars")
text_train, text_test, label_train, label_test = train_test_split(df3['text'], df3['stars'], random_state = 1)

不幸的是，我得到了类型错误：

TypeError:Column类型的对象没有len（）

我正在使用scikit学习分割

您能告诉我如何修复它吗？

您能试着打印

df3

的内容吗

print（df3.head（））

我打印了第一行。我认为

。select

方法与您在这里使用的方法不同。你能试着运行一下吗：

text\u-train，text\u-test，label\u-train，label\u-test=train\u-test\u-split（df2['text']，df2['stars']，random\u-state=1）

。不幸的是，我遇到了同样的错误：（未做任何更改的Dscikit Learn接受基于

numpy

的矩阵。您不能使用Pyspark数据帧运行它，并期望它能够立即运行。请将Pyspark数据帧转换为Pandas数据帧。是否可以尝试打印

df3

的内容？

打印（df3.head（））

我打印了第一行。我不认为

。select

方法的工作原理与您在这里使用的方法类似。您可以尝试运行以下操作：

text\u train，text\u test，label\u train，label\u test=train\u test\u split（df2['text']，df2['stars']，random\u state=1）

。我不幸地遇到了同样的错误：（未做任何更改SCIKIT Learn接受基于

numpy

的矩阵。您不能使用Pyspark数据帧运行它，并期望它能够立即运行。请将Pyspark数据帧转换为Pandas数据帧。