Keras 如何在tf idf和count vectorizor的Naive或Svm接口上应用Word to vector算法?
我正试图通过有监督的学习来实现单词到向量,以预测任何文档或新闻文章的情绪。word2vec表示与实数对应的每个单词,并根据该单词在文档中的出现情况创建向量 我的数据预处理如下:Keras 如何在tf idf和count vectorizor的Naive或Svm接口上应用Word to vector算法?,keras,scikit-learn,neural-network,word2vec,supervised-learning,Keras,Scikit Learn,Neural Network,Word2vec,Supervised Learning,我正试图通过有监督的学习来实现单词到向量,以预测任何文档或新闻文章的情绪。word2vec表示与实数对应的每个单词,并根据该单词在文档中的出现情况创建向量 我的数据预处理如下: text_clf = Pipeline([('vect', CountVectorizer(analyzer=to_lemmas)), ('tfidf', TfidfTransformer()), ('clf', MultinomialN
text_clf = Pipeline([('vect', CountVectorizer(analyzer=to_lemmas)),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB())])
tuned_parameters = {
'vect__ngram_range': [(1, 1), (1, 2), (2, 2)],
'tfidf__use_idf': (True, False),
'tfidf__norm': ('l1', 'l2'),
'clf__alpha': [1, 1e-1, 1e-2]
}
score = 'f1_macro'
clf = GridSearchCV(text_clf, tuned_parameters, cv=10, scoring=score)
clf.fit(x_train, y_train)
这里我应用countvectorizor,它给出单词计数,它被传递给tf idf,tf idf给出单词频率,然后作为分类器应用多项式朴素贝叶斯
Grid searchCV用于调整最佳分类模型
然后使用clf.fit对模型进行训练,使用clf.predict对传递的句子进行情感预测
我的此模型为我提供如下分类报告:
irrelevant 0.9739 0.7517 0.8485 149
negative 0.6308 0.5430 0.5836 151
neutral 0.7082 0.8687 0.7803 419
positive 0.5797 0.3670 0.4494 109
我想在这里应用Word-to-vector嵌入,请建议如何使用Naive和SVM实现Word-to-vector嵌入
您真的想从头开始“实现”word2vec吗?与之相反的是:(1)重用其他地方的单词向量作为分类器的可能帮助;或者(2)使用现有的工作库训练你自己的词向量?你真的想从头开始“实现”word2vec吗?而不是(1)重用其他地方的词向量作为分类器的可能辅助;或者(2)使用现有的工作库训练自己的词向量?