Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息?
我需要将Word2Vec与我的Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息?,deep-learning,gensim,word2vec,one-hot-encoding,word-embedding,Deep Learning,Gensim,Word2vec,One Hot Encoding,Word Embedding,我需要将Word2Vec与我的CNN模型结合起来。为此,我需要为每个句子保留一个标志(一个二进制标志就足够了),因为我的语料库有两种类型(也称为目标类)的句子。所以,我需要在创建后检索每个向量的这个标志。我如何在Word2Vec的输入句子中存储和检索这些信息,因为我需要这两个句子来训练我的深层神经网络 p、 我正在使用Gensim实现Word2Vec word2vec = Word2Vec(all_sentences, min_count=1) p、 我的语料库有6925个句子,而Word2V
CNN
模型结合起来。为此,我需要为每个句子保留一个标志(一个二进制标志就足够了),因为我的语料库有两种类型(也称为目标类)的句子。所以,我需要在创建后检索每个向量的这个标志。我如何在Word2Vec
的输入句子中存储和检索这些信息,因为我需要这两个句子来训练我的深层神经网络
p、 我正在使用Gensim
实现Word2Vec
word2vec = Word2Vec(all_sentences, min_count=1)
p、 我的语料库有6925个句子,而Word2Vec产生了5260个向量
编辑:有关我的语料库的更多详细信息(根据要求):
语料库的结构如下:
positive
)--一个Python列表
:StringFeature-A
:字符串Feature-B
:StringFeature-C
否定的
)--一个Python列表
:StringFeature-A
:字符串Feature-B
:StringFeature-C
Word2Vec
的输入
word2vec = Word2Vec(all_sentences, min_count=1)
我将向CNN提供提取的特征(在本例中是
词汇表
)和句子的目标。因此,我也需要这些句子的标签。因为Word2Vec
模型没有保留任何单个训练文本的表示,这完全是您在自己的Python代码中的事情
这看起来不像是什么数据。(对于典型的Word2Vec
来说,只有5260个单词的最终词汇表是相当小的。)
除非每个文本(也称为“句子”)都很长,否则您甚至可以使用Python dict,其中每个键都是句子的完整字符串,值是您的标志
但是,如果源数据在每个文本中都有其他唯一标识符(如唯一的数据库键,甚至是规范表示中的行号),则应该使用该标识符作为键
事实上,如果你的6925个文本有一个规范的源代码顺序,你可以有一个包含6925个元素的列表,每个元素都是你的标记。当您需要从位置n
了解文本的状态时,只需查看标志[n]
(要提出更具体的建议,您需要添加更多有关原始数据源的详细信息,以及稍后需要检查此额外属性的确切时间/原因。)谢谢您的评论。请看一下编辑过的作品。我不太明白你的补充。(这些并不是Word2Vec
所期望的语句
)但答案是一样的:您需要以某种自然的方式为示例命名/编号,然后使用您自己的基本Python数据结构来查找每个实例的标签,Word2Vec
&类似的模型最好使用文本进行训练,这些文本不是在一个连续的文本块中包含一种类型/主题/词汇的所有文本。因此,在将文本传递给Word2Vec
(或以其他方式确定规范顺序)之前,您可能需要确保没有将它们作为所有正面示例传递,然后是所有负面示例。我将所有句子一起传递,它们是列表的列表(功能
)包含字符串的,发送到Word2Vec
。我确实有这些句子的目标,但问题是如何将这些原始数据与提取的向量进行匹配?Word2Vec
模型没有任何文本报告。它只能通过word报告向量。你想用向量这个词做什么?