Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息？_Deep Learning_Gensim_Word2vec_One Hot Encoding_Word Embedding

Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息？

deep-learning

Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息？,deep-learning,gensim,word2vec,one-hot-encoding,word-embedding,Deep Learning,Gensim,Word2vec,One Hot Encoding,Word Embedding,我需要将Word2Vec与我的CNN模型结合起来。为此，我需要为每个句子保留一个标志（一个二进制标志就足够了），因为我的语料库有两种类型（也称为目标类）的句子。所以，我需要在创建后检索每个向量的这个标志。我如何在Word2Vec的输入句子中存储和检索这些信息，因为我需要这两个句子来训练我的深层神经网络 p、我正在使用Gensim实现Word2Vec word2vec = Word2Vec(all_sentences, min_count=1) p、我的语料库有6925个句子，而Word2V

我需要将Word2Vec与我的

CNN

模型结合起来。为此，我需要为每个句子保留一个标志（一个二进制标志就足够了），因为我的语料库有两种类型（也称为目标类）的句子。所以，我需要在创建后检索每个向量的这个标志。我如何在

Word2Vec

的输入句子中存储和检索这些信息，因为我需要这两个句子来训练我的深层神经网络

p、我正在使用

Gensim

实现

Word2Vec

word2vec = Word2Vec(all_sentences, min_count=1)

p、我的语料库有6925个句子，而Word2Vec产生了5260个向量

编辑：有关我的语料库的更多详细信息（根据要求）：

语料库的结构如下：

句子（标签：

positive

）--一个Python列表

```
Feature-A
```
：String
```
Feature-B
```
：字符串

Feature-C
：String

句子（标签：
否定的
）--一个Python列表

Feature-A
：String

Feature-B
：字符串

Feature-C
：String

然后所有的句子都作为
Word2Vec
的输入

word2vec = Word2Vec(all_sentences, min_count=1)

我将向CNN提供提取的特征（在本例中是
词汇表
）和句子的
目标。因此，我也需要这些句子的标签。因为Word2Vec 模型没有保留任何单个训练文本的表示，这完全是您在自己的Python代码中的事情这看起来不像是什么数据。（对于典型的Word2Vec 来说，只有5260个单词的最终词汇表是相当小的。）除非每个文本（也称为“句子”）都很长，否则您甚至可以使用Python dict，其中每个键都是句子的完整字符串，值是您的标志但是，如果源数据在每个文本中都有其他唯一标识符（如唯一的数据库键，甚至是规范表示中的行号），则应该使用该标识符作为键事实上，如果你的6925个文本有一个规范的源代码顺序，你可以有一个包含6925个元素的列表，每个元素都是你的标记。当您需要从位置n 了解文本的状态时，只需查看标志[n] （要提出更具体的建议，您需要添加更多有关原始数据源的详细信息，以及稍后需要检查此额外属性的确切时间/原因。）谢谢您的评论。请看一下编辑过的作品。我不太明白你的补充。（这些并不是Word2Vec 所期望的语句）但答案是一样的：您需要以某种自然的方式为示例命名/编号，然后使用您自己的基本Python数据结构来查找每个实例的标签，Word2Vec &类似的模型最好使用文本进行训练，这些文本不是在一个连续的文本块中包含一种类型/主题/词汇的所有文本。因此，在将文本传递给Word2Vec （或以其他方式确定规范顺序）之前，您可能需要确保没有将它们作为所有正面示例传递，然后是所有负面示例。我将所有句子一起传递，它们是列表的列表（功能）包含字符串的，发送到Word2Vec 。我确实有这些句子的目标，但问题是如何将这些原始数据与提取的向量进行匹配？Word2Vec 模型没有任何文本报告。它只能通过word报告向量。你想用向量这个词做什么？