Python 将word2vec放入具有数据帧结构的训练集中

Python 将word2vec放入具有数据帧结构的训练集中,python,machine-learning,nlp,Python,Machine Learning,Nlp,我是NLP的begginer,我有一些关于分类任务的问题。我有一个数据帧结构的数据集,它包含两列,第一列是文本(所以字符串),第二列是每个测试的标签。比如说第一列x_列车和第二列y_列车。为了应用MLP,我可以使用以下代码 Tfidf_vect = TfidfVectorizer(max_features = 5000) Tfidf_vect.fit(input_text) Train_X_Tfidf = Tfidf_vect.transform(x_train) Test_X_Tfidf

我是NLP的begginer,我有一些关于分类任务的问题。我有一个数据帧结构的数据集,它包含两列,第一列是文本(所以字符串),第二列是每个测试的标签。比如说第一列x_列车和第二列y_列车。为了应用MLP,我可以使用以下代码

Tfidf_vect = TfidfVectorizer(max_features = 5000)

Tfidf_vect.fit(input_text)

Train_X_Tfidf = Tfidf_vect.transform(x_train)
Test_X_Tfidf = Tfidf_vect.transform(x_test)

我想尝试Word2Vec模型,但我不知道如何使用Word2Vec将训练数据转换为数字。然后我可以再次应用MLP模型。如果您能帮助我,我将不胜感激。

您所说的“使用Word2vec将我的培训数据转换为数字”是什么意思?如果您指的是获取给定文本的嵌入式表示,则可以使用。在文档中,您可以找到一些使用该模型的示例,您所说的“使用Word2vec将我的培训数据转换为数字”是什么意思?如果您指的是获取给定文本的嵌入式表示,则可以使用。在文档中,您可以找到一些使用模型的示例,这些示例来自:

最大功能int,默认值=无

如果没有,建立一个 只考虑通过频率的顺序排列的最大Max特征 语料库

这意味着基于您的文本,TfidfVectorizer将构建一个词汇表,其中包含最常见的“max_功能”标记(单词或字符)。例如,使用单词级别,将max_features设置为10,它会将文本中最常出现的10个单词作为其词汇表。至于你想使用多少功能,这取决于你文本中的字数。不过,最常见的选择是10000


至于你的第二个问题,除了Gensim的Word2Vec,你可以试试Keras嵌入层。tensorflow网站上发布了一篇很好的教程。

根据

最大功能int,默认值=无

如果没有,建立一个 只考虑通过频率的顺序排列的最大Max特征 语料库

这意味着基于您的文本,TfidfVectorizer将构建一个词汇表,其中包含最常见的“max_功能”标记(单词或字符)。例如,使用单词级别,将max_features设置为10,它会将文本中最常出现的10个单词作为其词汇表。至于你想使用多少功能,这取决于你文本中的字数。不过,最常见的选择是10000


至于你的第二个问题,除了Gensim的Word2Vec,你可以试试Keras嵌入层。tensorflow网站上发布了一个很好的教程。

我的意思是,我的原始数据框只包含文本,但为了使用MLP,我需要数字,因此我必须将训练集转换为嵌入式表示。我查阅了文档,但没有找到相关内容。我的意思是,我的原始数据框只包含文本,但为了使用MLP,我需要数字,因此我必须将训练集转换为嵌入式表示。我查阅了文件,但没有找到相关的东西。