Nlp 用于关系分类的卷积神经网络中位置向量的生成_Nlp_Deep Learning_Conv Neural Network

Nlp 用于关系分类的卷积神经网络中位置向量的生成

nlp deep-learning

Nlp 用于关系分类的卷积神经网络中位置向量的生成,nlp,deep-learning,conv-neural-network,Nlp,Deep Learning,Conv Neural Network,该问题涉及CNN中位置向量在关系分类中的使用，如Zeng等人在多个出版物中所述：我试图在tensorflow中实现这样一个模型。我的问题如下: 使用随机初始化的向量表示位置信息有什么好处吗？例如，为什么不使用一个热向量编码（比如100维）来表示位置？是否不建议将一个热向量与密集词向量组合根据单词向量的维度，位置向量是否有最小维度？例如，假设单词vector dimension是500，那么位置向量的维度（比如10）是否会太小而在模型中没有价值？是否有一系列已知的维度能够很好地处理位置向量用

该问题涉及CNN中位置向量在关系分类中的使用，如Zeng等人在多个出版物中所述：

我试图在tensorflow中实现这样一个模型。我的问题如下:

使用随机初始化的向量表示位置信息有什么好处吗？例如，为什么不使用一个热向量编码（比如100维）来表示位置？是否不建议将一个热向量与密集词向量组合

根据单词向量的维度，位置向量是否有最小维度？例如，假设单词vector dimension是500，那么位置向量的维度（比如10）是否会太小而在模型中没有价值？是否有一系列已知的维度能够很好地处理位置向量

用于编码位置信息的随机初始化向量之间的距离是否重要

非常感谢您抽出时间来研究这个问题

关于问题1，我无法解释为什么将一个热的和密集的表示结合起来是不好的，但从经验上看，从其他人报告的结果来看，似乎最好也学习这些位置的嵌入

Yoav Goldberg也在他的（第96页）中指出了这一点：

在“传统”NLP设置中，距离通常通过将距离分为几个组（即1、2、3、4、5-10、， 10+）并将每个箱子与一个热向量关联。在神经架构中，输入向量不是由二进制指示符特征组成的，分配单个输入似乎很自然距离要素的条目，其中该条目的数值为距离

但是, 在实践中没有采取这种方法。相反，距离特征的编码方式与其他特征类似特征类型：每个面元与一个d维向量相关联，这些距离是嵌入的然后将向量训练为网络中的常规参数[dos Santos等人，2015年，Nguyen 和Grishman，2015，Zeng等人，2014，Zhu等人，2015a]

也许您可以通过查看引用的论文，找到更多关于为什么嵌入更好的见解

关于问题2，我想说的是，只要维度足够大，模型就可以为每个要编码的位置学习不同的嵌入，就可以了。因此，它们在实践中可能非常小