Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/282.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python SVM分类任务中word2vec特征的输入格式是什么?_Python_Classification_Svm_Word2vec - Fatal编程技术网

Python SVM分类任务中word2vec特征的输入格式是什么?

Python SVM分类任务中word2vec特征的输入格式是什么?,python,classification,svm,word2vec,Python,Classification,Svm,Word2vec,我在scikit学习中使用线性SVM做一个二进制分类任务。我使用名词性特征和词向量。我使用经过预训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为一种特征处理。 似乎我需要将每个向量“拆分”为300个单独的特征(=300个向量维度),因为我无法将向量作为一个整体传递给SVM。但这似乎不对,因为向量应该被视为一个特征。 在这种情况下,表示向量的正确方法是什么?许多特征的向量 从支持向量机的角度来看,单词向量的每个维度都是一个单独的数字特征——该向量中的每个维

我在scikit学习中使用线性SVM做一个二进制分类任务。我使用名词性特征和词向量。我使用经过预训练的Google word2vec获得了单词向量,但是,我不确定SVM如何将单词向量作为一种特征处理。
似乎我需要将每个向量“拆分”为300个单独的特征(=300个向量维度),因为我无法将向量作为一个整体传递给SVM。但这似乎不对,因为向量应该被视为一个特征。
在这种情况下,表示向量的正确方法是什么?

许多特征的向量 从支持向量机的角度来看,单词向量的每个维度都是一个单独的数字特征——该向量中的每个维度表示一个数字度量,表示不同的东西


这同样适用于非支持向量机分类器。例如,如果你有一个神经网络,你的输入特征是长度为300的单词向量,并且(为了一个粗略的例子)有一点说明这个单词是否大写,那么你将连接这些东西,并将301个数字作为你的输入;您可以将该功能视为300个维度中的每个维度。

感谢您的快速响应!所以你想说我们必须采用word2vec功能的平均值。@BilalChandio不,我绝对不想这么说;我想让OP放心,是的,将向量“拆分”为300个独立的特征是合适的方法。我看不出答案中建议采用特征的平均值是什么,如果你能指出这种解释,我会改变答案来修正它。