Python 2.7 将哪些参数传递给scikit学习库的svm函数进行文档分类_Python 2.7_Scikit Learn_Svm_Text Classification_Document Classification

Python 2.7 将哪些参数传递给scikit学习库的svm函数进行文档分类

python-2.7 scikit-learn

Python 2.7 将哪些参数传递给scikit学习库的svm函数进行文档分类,python-2.7,scikit-learn,svm,text-classification,document-classification,Python 2.7,Scikit Learn,Svm,Text Classification,Document Classification,我是机器学习新手。我正在研究文件分类。为此，我尝试在“20新闻组”数据集的子集上训练SVM。我正在使用scikit学习。链接：作为一个训练集，我学习了3类新闻，每类40篇文档。到目前为止，我已经为每个文档做了以下工作：标记化删除停止词（即“the”、“on”、“in”等）柠檬化（词干词）（即'runs'，'running'，'ran'='run'）计算剩余单词的tf idf分数（标签[]：包含每个文档的类别标签的列表）（最终列表[]：包含每个文档的单词列表及其tf id

我是机器学习新手。我正在研究文件分类。为此，我尝试在“20新闻组”数据集的子集上训练SVM。我正在使用scikit学习。链接：作为一个训练集，我学习了3类新闻，每类40篇文档。到目前为止，我已经为每个文档做了以下工作：

标记化
删除停止词（即“the”、“on”、“in”等）
柠檬化（词干词）（即'runs'，'running'，'ran'='run'）
计算剩余单词的tf idf分数

（

标签[]

：包含每个文档的类别标签的列表）

（

最终列表[]

：包含每个文档的单词列表及其tf idf分数的列表

final_list=[
    [['run',0.16544],['ground',0.1224]...]
    [['disk',0.9677],['pc',0.8888]....]
    .....
    .....
    ])

与其他分类器一样，SVC、NuSVC和LinearSVC将两个数组作为输入：包含训练样本的大小为[n_样本，n_特征]的数组X，和类标签（字符串或整数）的数组y，大小[n_samples]：

Scikit学习网页中的示例代码：（用于数字数据）

拟合后，模型可用于预测新值：

>>> clf.predict([[2., 2.]])
array([1])

现在，当我使用以下行时：

>>> from sklearn import svm
>>> clf = svm.SVC()
>>> clf.fit(final_list, labels)

它是给予

ValueError:使用序列设置数组元素

我不确定要为我的问题陈述传递给svm函数的参数。

final_list

包含不同大小的列表。您的示例具有不同的功能。请尝试清理测试集并设置其格式。您可以在原始文本输入上使用

tfidfvectorier

final_list

包含不同大小的列表。您的示例具有不同的功能。请尝试清理测试集并设置其格式您可以在原始文本输入上使用

TFiDFVectorizer

>>> from sklearn import svm
>>> clf = svm.SVC()
>>> clf.fit(final_list, labels)