Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息?

Deep learning Word2Vec-如何存储和检索有关语料库每个实例的额外信息?,deep-learning,gensim,word2vec,one-hot-encoding,word-embedding,Deep Learning,Gensim,Word2vec,One Hot Encoding,Word Embedding,我需要将Word2Vec与我的CNN模型结合起来。为此,我需要为每个句子保留一个标志(一个二进制标志就足够了),因为我的语料库有两种类型(也称为目标类)的句子。所以,我需要在创建后检索每个向量的这个标志。我如何在Word2Vec的输入句子中存储和检索这些信息,因为我需要这两个句子来训练我的深层神经网络 p、 我正在使用Gensim实现Word2Vec word2vec = Word2Vec(all_sentences, min_count=1) p、 我的语料库有6925个句子,而Word2V

我需要将Word2Vec与我的
CNN
模型结合起来。为此,我需要为每个句子保留一个标志(一个二进制标志就足够了),因为我的语料库有两种类型(也称为目标类)的句子。所以,我需要在创建后检索每个向量的这个标志。我如何在
Word2Vec
的输入句子中存储和检索这些信息,因为我需要这两个句子来训练我的深层神经网络

p、 我正在使用
Gensim
实现
Word2Vec

word2vec = Word2Vec(all_sentences, min_count=1)
p、 我的语料库有6925个句子,而Word2Vec产生了5260个向量

编辑:有关我的语料库的更多详细信息(根据要求):

语料库的结构如下:

  • 句子(标签:
    positive
    )--一个Python列表

    • Feature-A
      String
    • Feature-B
      字符串
    • Feature-C
      String
  • 句子(标签:
    否定的
    )--一个Python列表

    • Feature-A
      String
    • Feature-B
      字符串
    • Feature-C
      String
  • 然后所有的句子都作为
    Word2Vec
    的输入

    word2vec = Word2Vec(all_sentences, min_count=1)
    

    我将向CNN提供提取的特征(在本例中是
    词汇表
    )和句子的
    目标。因此,我也需要这些句子的标签。

    因为
    Word2Vec
    模型没有保留任何单个训练文本的表示,这完全是您在自己的Python代码中的事情

    这看起来不像是什么数据。(对于典型的
    Word2Vec
    来说,只有5260个单词的最终词汇表是相当小的。)

    除非每个文本(也称为“句子”)都很长,否则您甚至可以使用Python dict,其中每个键都是句子的完整字符串,值是您的标志

    但是,如果源数据在每个文本中都有其他唯一标识符(如唯一的数据库键,甚至是规范表示中的行号),则应该使用该标识符作为键

    事实上,如果你的6925个文本有一个规范的源代码顺序,你可以有一个包含6925个元素的列表,每个元素都是你的标记。当您需要从位置
    n
    了解文本的状态时,只需查看
    标志[n]


    (要提出更具体的建议,您需要添加更多有关原始数据源的详细信息,以及稍后需要检查此额外属性的确切时间/原因。)

    谢谢您的评论。请看一下编辑过的作品。我不太明白你的补充。(这些并不是
    Word2Vec
    所期望的
    语句
    )但答案是一样的:您需要以某种自然的方式为示例命名/编号,然后使用您自己的基本Python数据结构来查找每个实例的标签,
    Word2Vec
    &类似的模型最好使用文本进行训练,这些文本不是在一个连续的文本块中包含一种类型/主题/词汇的所有文本。因此,在将文本传递给
    Word2Vec
    (或以其他方式确定规范顺序)之前,您可能需要确保没有将它们作为所有正面示例传递,然后是所有负面示例。我将所有句子一起传递,它们是
    列表的
    列表(
    功能
    )包含
    字符串的
    ,发送到
    Word2Vec
    。我确实有这些句子的目标,但问题是如何将这些原始数据与提取的向量进行匹配?
    Word2Vec
    模型没有任何文本报告。它只能通过word报告向量。你想用向量这个词做什么?