Python SVM分类任务中word2vec特征的输入格式是什么?
我在scikit学习中使用线性SVM做一个二进制分类任务。我使用名词性特征和词向量。我使用经过预训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为一种特征处理。Python SVM分类任务中word2vec特征的输入格式是什么?,python,classification,svm,word2vec,Python,Classification,Svm,Word2vec,我在scikit学习中使用线性SVM做一个二进制分类任务。我使用名词性特征和词向量。我使用经过预训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为一种特征处理。 似乎我需要将每个向量“拆分”为300个单独的特征(=300个向量维度),因为我无法将向量作为一个整体传递给SVM。但这似乎不对,因为向量应该被视为一个特征。 在这种情况下,表示向量的正确方法是什么?许多特征的向量 从支持向量机的角度来看,单词向量的每个维度都是一个单独的数字特征——该向量中的每个维
似乎我需要将每个向量“拆分”为300个单独的特征(=300个向量维度),因为我无法将向量作为一个整体传递给SVM。但这似乎不对,因为向量应该被视为一个特征。
在这种情况下,表示向量的正确方法是什么?许多特征的向量 从支持向量机的角度来看,单词向量的每个维度都是一个单独的数字特征——该向量中的每个维度表示一个数字度量,表示不同的东西
这同样适用于非支持向量机分类器。例如,如果你有一个神经网络,你的输入特征是长度为300的单词向量,并且(为了一个粗略的例子)有一点说明这个单词是否大写,那么你将连接这些东西,并将301个数字作为你的输入;您可以将该功能视为300个维度中的每个维度。感谢您的快速响应!所以你想说我们必须采用word2vec功能的平均值。@BilalChandio不,我绝对不想这么说;我想让OP放心,是的,将向量“拆分”为300个独立的特征是合适的方法。我看不出答案中建议采用特征的平均值是什么,如果你能指出这种解释,我会改变答案来修正它。