Python 如何使用word2vec来训练分类器？_Python_Word2vec_Naivebayes

Python 如何使用word2vec来训练分类器？

python

Python 如何使用word2vec来训练分类器？,python,word2vec,naivebayes,Python,Word2vec,Naivebayes,该代码用于生成word2vec，并使用它来训练朴素贝叶斯分类器。我能够生成word2vec并成功使用相似性函数。下一步，我想使用word2vec来训练朴素贝叶斯分类器。目前，当我试图在测试和训练中分割数据时，代码给出了一个错误。如何将word2vec模型转换为数组，以便将其用作训练数据 #导入库将numpy作为np导入将matplotlib.pyplot作为plt导入作为pd进口熊猫进口gensim # Importing the dataset dataset = pd.read_c

该代码用于生成word2vec，并使用它来训练朴素贝叶斯分类器。我能够生成word2vec并成功使用相似性函数。下一步，我想使用word2vec来训练朴素贝叶斯分类器。目前，当我试图在测试和训练中分割数据时，代码给出了一个错误。如何将word2vec模型转换为数组，以便将其用作训练数据

#导入库将numpy作为np导入将matplotlib.pyplot作为plt导入作为pd进口熊猫进口gensim

# Importing the dataset
dataset = pd.read_csv('Restaurant_Reviews.tsv', delimiter = '\t', quoting = 3)

# Cleaning the texts
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
corpus = []
for i in range(0, 1000):
    review = re.sub('[^a-zA-Z]', ' ', dataset['Review'][i])
    review = review.lower()
    review = review.split()
    ps = PorterStemmer()
    review = [ps.stem(word) for word in review if not word in set(stopwords.words('english'))]
#    for word2vec we want an array of vectors

    corpus.append(review)

#print(corpus)
X = gensim.models.Word2Vec(corpus, min_count=1,size=1000)
#print (X.most_similar("love"))


#embedding_matrix = np.zeros(len(X.wv.vocab), dtype='float32')
#for i in range(len(X.wv.vocab)):
#    embedding_vector = X.wv[X.wv.index2word[i]]
#    if embedding_vector is not None:
#        embedding_matrix[i] = embedding_vector

# Creating the Bag of Words model
#from sklearn.feature_extraction.text import CountVectorizer
#cv = CountVectorizer(max_features = 1500)
#X = cv.fit_transform(corpus).toarray()
y = dataset.iloc[:, 1].values

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)

# Fitting Naive Bayes to the Training set
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

It gives an error on line -
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 0)
TypeError: Expected sequence or array-like, got <class 'gensim.models.word2vec.Word2Vec'>

#导入数据集
dataset=pd.read_csv（'Restaurant_Reviews.tsv'，分隔符='\t'，引号=3）
#清理文本
进口稀土
导入nltk
nltk.download（'stopwords'））
从nltk.corpus导入停止词
从nltk.stem.porter导入PorterStemmer
语料库=[]
对于范围（0，1000）内的i：
review=re.sub（“[^a-zA-Z]”，“”，数据集['review'][i]）
review=review.lower（）
review=review.split（）
ps=PorterStemmer（）
review=[ps.stem（单词）表示正在复习的单词，如果不是集合中的单词（stopwords.words（'english'））]
#对于word2vec，我们需要一个向量数组
语料库追加（综述）
#印刷品（语料库）
X=gensim.models.Word2Vec（语料库，最小计数=1，大小=1000）
#印刷品（X.最相似（“爱”））
#嵌入矩阵=np.zero（len（X.wv.vocab），dtype='float32'）
#对于范围内的i（len（X.wv.vocab））：
#嵌入向量=X.wv[X.wv.index2word[i]]
#如果嵌入_向量不是无：
#嵌入矩阵[i]=嵌入向量
#创建单词袋模型
#从sklearn.feature\u extraction.text导入countvectorier
#cv=计数矢量器（最大功能=1500）
#X=cv.fit_变换（语料库）.toarray（）
y=dataset.iloc[：，1]。值
#将数据集拆分为训练集和测试集
从sklearn.cross\u验证导入序列测试\u分割
X_序列，X_测试，y_序列，y_测试=序列测试分割（X，y，测试大小=0.20，随机状态=0）
#将朴素贝叶斯拟合到训练集
从sklearn.naive_bayes导入GaussianNB
分类器=GaussianNB（）
分类器。配合（X_系列，y_系列）
#预测测试集结果
y_pred=分类器。预测（X_测试）
#制作混淆矩阵
从sklearn.metrics导入混淆矩阵
cm=混淆矩阵（y_测试，y_预测）
它在线上给出了一个错误-
从sklearn.cross\u验证导入序列测试\u分割
X_序列，X_测试，y_序列，y_测试=序列测试分割（X，y，测试大小=0.20，随机状态=0）
TypeError:预期的序列或类似数组，已获取

Word2Vec仅提供单词嵌入。如果要通过嵌入来表征文档，则需要对每个文档中所有单词的嵌入执行平均/求和/最大操作，以获得可用于分类的D维向量。有关这方面的更多信息，请参阅和

否则，您可以使用Doc2Vec模型直接生成文档嵌入，gensim也提供了一个很好的提供者

每个单词都有向量，现在有两种前进的方法，一种是简单地对一个句子中的所有单词进行平均，以找到句子向量，另一种是使用tfidf

我在一个正在进行的项目中实现了平均方法，我正在共享github链接，请转到标题“文本矢量化（word2vec）”，您将找到它们的代码。 . 不过，我建议您在阅读数据清理之前先阅读它，以便更好地理解它

一个重要的建议是：不要将数据拆分为向量化后的训练、cv、测试，在向量化之前进行，否则会过度拟合模型。

您需要使用嵌入将语料库转换为向量：指向“此处”的链接已断开