pythonkeras-word嵌入_Python_Anaconda_Keras_Word2vec_Word Embedding

pythonkeras-word嵌入

python anaconda keras

pythonkeras-word嵌入,python,anaconda,keras,word2vec,word-embedding,Python,Anaconda,Keras,Word2vec,Word Embedding,我有以下问题：我使用的是anacondapython。在keras的数据集中，有一个处理imdb的数据集 from keras.datasets import imdb (X_train, y_train), (X_test, y_test) = imdb.load_data() 根据文档，数据集现在可以使用了。基本上，这些单词已被整数替换，整数表示数据集中每个单词的有序频率。因此，每次修订的句子都由一系列整数组成。问题是，我想知道一种将新数据集“转换”为keras的这种输入模式的方法

我有以下问题：

我使用的是

anaconda

python

。在keras的数据集中，有一个处理imdb的数据集

from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = imdb.load_data()

根据文档，数据集现在可以使用了。基本上，这些单词已被整数替换，整数表示数据集中每个单词的有序频率。因此，每次修订的句子都由一系列整数组成。问题是，我想知道一种将新数据集“转换”为keras的这种输入模式的方法

对于这些错误，我很抱歉，我是python新手，我正在努力学习ml

我尝试通过

word2vec

执行此操作，但我不知道我是否走在正确的道路上：

word2vec.train_on_corpus(
    open('my-corpus.txt').read(),
    num_embedding_dimensions=500
)

这个例子是一个文本，但是我有一个架构，其中每个文件夹的名称都是标签，每个文件夹中都有txt文档

我“得到”的另一种方法是使用

sklearn

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",   
                         tokenizer = None,    
                         preprocessor = None, 
                         stop_words = None,   
                         max_features = 5000) 

train_data_features = vectorizer.fit_transform(sentences)
train_data_features = train_data_features.toarray()

你有其他的选择，我可以使用吗？目前的做法真的是这样吗？但我仍然不知道如何将文本向量绑定到标签

欢迎提供任何帮助，谢谢。

您在keras想做什么。是否需要imdb数据的字向量？那么也许你应该看看。请详细说明您的问题，以便我能正确回答。我想将句子上下文转换为与每个单词的频率相对应的整数向量。我使用countVetorizer获得它，并且我怀疑这是否是sklearn.feature\u extraction.text import CountVectorier的最佳方法我不知道频率计数的最佳方法。我通常通过在python循环中读取文本并创建词频字典来手动完成。你使用

sklearn

的方法似乎比我的好。