Python 如何在sklearn中拆分测试列车?返回的类型错误

Python 如何在sklearn中拆分测试列车?返回的类型错误,python,dataframe,typeerror,countvectorizer,Python,Dataframe,Typeerror,Countvectorizer,我是pyspark的新手,我正在尝试在测试和训练集上分割我的数据帧,然后应用朴素贝叶斯 我有一个数据框,它由两列组成:文本和星星(标签) 这是我的代码: df3= df2.select( "text", "stars") text_train, text_test, label_train, label_test = train_test_split(df3['text'], df3['stars'], random_state = 1) 不幸的是,我得到了类型错误: TypeError:Co

我是pyspark的新手,我正在尝试在测试和训练集上分割我的数据帧,然后应用朴素贝叶斯

我有一个数据框,它由两列组成:文本和星星(标签)

这是我的代码:

df3= df2.select( "text", "stars")
text_train, text_test, label_train, label_test = train_test_split(df3['text'], df3['stars'], random_state = 1)
不幸的是,我得到了类型错误:
TypeError:Column类型的对象没有len()

我正在使用scikit学习分割


您能告诉我如何修复它吗?

您能试着打印
df3
的内容吗
print(df3.head())
我打印了第一行。我认为
。select
方法与您在这里使用的方法不同。你能试着运行一下吗:
text\u-train,text\u-test,label\u-train,label\u-test=train\u-test\u-split(df2['text'],df2['stars'],random\u-state=1)
。不幸的是,我遇到了同样的错误:(未做任何更改的Dscikit Learn接受基于
numpy
的矩阵。您不能使用Pyspark数据帧运行它,并期望它能够立即运行。请将Pyspark数据帧转换为Pandas数据帧。是否可以尝试打印
df3
的内容?
打印(df3.head())
我打印了第一行。我不认为
。select
方法的工作原理与您在这里使用的方法类似。您可以尝试运行以下操作:
text\u train,text\u test,label\u train,label\u test=train\u test\u split(df2['text'],df2['stars'],random\u state=1)
。我不幸地遇到了同样的错误:(未做任何更改SCIKIT Learn接受基于
numpy
的矩阵。您不能使用Pyspark数据帧运行它,并期望它能够立即运行。请将Pyspark数据帧转换为Pandas数据帧。