Nlp 用于关系分类的卷积神经网络中位置向量的生成

Nlp 用于关系分类的卷积神经网络中位置向量的生成,nlp,deep-learning,conv-neural-network,Nlp,Deep Learning,Conv Neural Network,该问题涉及CNN中位置向量在关系分类中的使用,如Zeng等人在多个出版物中所述: 我试图在tensorflow中实现这样一个模型。我的问题如下: 使用随机初始化的向量表示位置信息有什么好处吗?例如,为什么不使用一个热向量编码(比如100维)来表示位置?是否不建议将一个热向量与密集词向量组合 根据单词向量的维度,位置向量是否有最小维度?例如,假设单词vector dimension是500,那么位置向量的维度(比如10)是否会太小而在模型中没有价值?是否有一系列已知的维度能够很好地处理位置向量 用

该问题涉及CNN中位置向量在关系分类中的使用,如Zeng等人在多个出版物中所述:

我试图在tensorflow中实现这样一个模型。我的问题如下:

  • 使用随机初始化的向量表示位置信息有什么好处吗?例如,为什么不使用一个热向量编码(比如100维)来表示位置?是否不建议将一个热向量与密集词向量组合

  • 根据单词向量的维度,位置向量是否有最小维度?例如,假设单词vector dimension是500,那么位置向量的维度(比如10)是否会太小而在模型中没有价值?是否有一系列已知的维度能够很好地处理位置向量

  • 用于编码位置信息的随机初始化向量之间的距离是否重要


  • 非常感谢您抽出时间来研究这个问题

    关于问题1,我无法解释为什么将一个热的和密集的表示结合起来是不好的,但从经验上看,从其他人报告的结果来看,似乎最好也学习这些位置的嵌入

    Yoav Goldberg也在他的(第96页)中指出了这一点:

    在“传统”NLP设置中, 距离通常通过将距离分为几个组(即1、2、3、4、5-10、, 10+)并将每个箱子与一个热向量关联。在神经架构中,输入 向量不是由二进制指示符特征组成的,分配单个输入似乎很自然 距离要素的条目,其中该条目的数值为距离

    但是, 在实践中没有采取这种方法。相反,距离特征的编码方式与其他特征类似 特征类型:每个面元与一个d维向量相关联,这些距离是嵌入的 然后将向量训练为网络中的常规参数[dos Santos等人,2015年,Nguyen 和Grishman,2015,Zeng等人,2014,Zhu等人,2015a]

    也许您可以通过查看引用的论文,找到更多关于为什么嵌入更好的见解

    关于问题2,我想说的是,只要维度足够大,模型就可以为每个要编码的位置学习不同的嵌入,就可以了。因此,它们在实践中可能非常小