gensim vocab索引是对应的1-热向量中的索引吗?

gensim vocab索引是对应的1-热向量中的索引吗?,gensim,word2vec,one-hot-encoding,Gensim,Word2vec,One Hot Encoding,我正在做的研究需要直接操纵和嵌入一个热向量,我正试图使用gensim加载一个预训练word2vec模型 问题是他们似乎没有一个直接的api来处理1-hot-vectors。我正在找工作 所以我想知道是否有人知道这样做的方法?或者更具体地说,如果这些vocab索引(定义非常模糊)。可以将索引转换为相应的1-热向量吗 我发现: 似乎是相关的,但我尝试通过model.syn0(从回答中的链接)访问“输入嵌入”(假设它们是一个热门表示),但我得到了一个非稀疏矩阵 也会出现(搜索Doctag/index

我正在做的研究需要直接操纵和嵌入一个热向量,我正试图使用gensim加载一个预训练word2vec模型

问题是他们似乎没有一个直接的api来处理1-hot-vectors。我正在找工作

所以我想知道是否有人知道这样做的方法?或者更具体地说,如果这些vocab索引(定义非常模糊)。可以将索引转换为相应的1-热向量吗

我发现:

  • 似乎是相关的,但我尝试通过model.syn0(从回答中的链接)访问“输入嵌入”(假设它们是一个热门表示),但我得到了一个非稀疏矩阵
  • 也会出现(搜索Doctag/index)
  • 另一个问题给出了一些指数的背景(尽管没有完全回答我的问题)
  • 是官方文件:
################################################

类gensim.models.keyedvectors.Vocab(**kwargs) 基数:对象

单个词汇表项,内部用于收集每个单词的频率/采样信息,并用于构造二叉树(包括单词叶子和内部节点)


################################################

是的,你可以把gensim的
Word2Vec的
索引
(位置)看作是
1.0
的一维,与所有其他V维一样,其中V是唯一单词的计数,即
0.0

该实现实际上从未创建一个热向量,作为稀疏或显式表示。它只是使用单词的索引作为其密集向量的查找——遵循gensim实现最初基于的Google的
word2vec.c
代码路径


(术语“doctags”仅在
Doc2Vec
——也称为“段落向量”——实现中相关。它是用于查找文档向量的不同标记/整数的名称,使用与文档文字中不同的名称空间。也就是说,在
Doc2Vec
中,您可以使用
'doc_007'
作为文档向量。)我,又名“doctag”,即使字符串标记
'doc\u 007'
在文档中也显示为单词,doctag key
'doc\u 007'
引用的文档向量和word key
'doc\u 007'
引用的单词向量也不会是相同的内部向量。)

谢谢您的信息!