pythonkeras-word嵌入

pythonkeras-word嵌入,python,anaconda,keras,word2vec,word-embedding,Python,Anaconda,Keras,Word2vec,Word Embedding,我有以下问题: 我使用的是anacondapython。 在keras的数据集中,有一个处理imdb的数据集 from keras.datasets import imdb (X_train, y_train), (X_test, y_test) = imdb.load_data() 根据文档,数据集现在可以使用了。 基本上,这些单词已被整数替换,整数表示数据集中每个单词的有序频率。因此,每次修订的句子都由一系列整数组成。 问题是,我想知道一种将新数据集“转换”为keras的这种输入模式的方法

我有以下问题:

我使用的是
anaconda
python
。 在keras的数据集中,有一个处理imdb的数据集

from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = imdb.load_data()
根据文档,数据集现在可以使用了。 基本上,这些单词已被整数替换,整数表示数据集中每个单词的有序频率。因此,每次修订的句子都由一系列整数组成。 问题是,我想知道一种将新数据集“转换”为keras的这种输入模式的方法

对于这些错误,我很抱歉,我是python新手,我正在努力学习ml

我尝试通过
word2vec
执行此操作,但我不知道我是否走在正确的道路上:

word2vec.train_on_corpus(
    open('my-corpus.txt').read(),
    num_embedding_dimensions=500
)
这个例子是一个文本,但是我有一个架构,其中每个文件夹的名称都是标签,每个文件夹中都有txt文档

我“得到”的另一种方法是使用
sklearn

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",   
                         tokenizer = None,    
                         preprocessor = None, 
                         stop_words = None,   
                         max_features = 5000) 

train_data_features = vectorizer.fit_transform(sentences)
train_data_features = train_data_features.toarray()
你有其他的选择,我可以使用吗?目前的做法真的是这样吗? 但我仍然不知道如何将文本向量绑定到标签


欢迎提供任何帮助,谢谢。

您在keras想做什么。是否需要imdb数据的字向量?那么也许你应该看看。请详细说明您的问题,以便我能正确回答。我想将句子上下文转换为与每个单词的频率相对应的整数向量。我使用countVetorizer获得它,并且我怀疑这是否是sklearn.feature\u extraction.text import CountVectorier的最佳方法我不知道频率计数的最佳方法。我通常通过在python循环中读取文本并创建词频字典来手动完成。你使用
sklearn
的方法似乎比我的好。