Python 将TFIDF特征向量从sklearn传递到SGDClassizer_Python_Scikit Learn_Tf Idf

Python 将TFIDF特征向量从sklearn传递到SGDClassizer

python scikit-learn

Python 将TFIDF特征向量从sklearn传递到SGDClassizer,python,scikit-learn,tf-idf,Python,Scikit Learn,Tf Idf,我试图通过给出一个测试用例并在X的训练数据上训练来预测数组Y的值，现在我的问题是，我想将训练集X更改为TF-IDF特征向量，那么这怎么可能呢？隐约地说，我想做这样的事情 import numpy as np from sklearn import linear_model X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]]) Y = np.array(['C++', 'C#', 'java','python']) clf = linear_mod

我试图通过给出一个测试用例并在X的训练数据上训练来预测数组Y的值，现在我的问题是，我想将训练集X更改为TF-IDF特征向量，那么这怎么可能呢？隐约地说，我想做这样的事情

import numpy as np
from sklearn import linear_model
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)
print (clf.predict([[1.7, 0.7]]))
#python

您应该查看

scikit中的学习

。我假定X是要分类的文本列表

import numpy as np
from sklearn import linear_model
X = np.array_str([['abcd', 'efgh'], ['qwert', 'yuiop'], ['xyz','abc'],['opi', 'iop']])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)

然后使用

X_train

作为新的X来训练分类器

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X)

clf = linear_model.SGDClassifier()
clf.fit(X_train, Y)