Machine learning 如何将依赖路径编码为分类的特征？_Machine Learning_Nlp_Stanford Nlp_Feature Extraction_Information Extraction

Machine learning 如何将依赖路径编码为分类的特征？

machine-learning nlp stanford-nlp

Machine learning 如何将依赖路径编码为分类的特征？,machine-learning,nlp,stanford-nlp,feature-extraction,information-extraction,Machine Learning,Nlp,Stanford Nlp,Feature Extraction,Information Extraction,我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征（预测关系X是否存在）。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例，它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释： nsubj acl nmod:from acl nmod:by conj:and nsubj nmod:into nsubj acl:relcl advmod nmod:of 重要的是要记住，这些路径的长度是可变的，并且关系可以在没有任何限制的情

我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征（预测关系X是否存在）。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例，它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释：

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of

重要的是要记住，这些路径的长度是可变的，并且关系可以在没有任何限制的情况下重新出现

我想到的两种编码此功能的折衷方法是：

1）忽略序列，每个关系只有一个特征，其值是它在路径中出现的次数

2）具有长度为n的滑动窗口，并且对于每对可能的关系具有一个特征，其值为这两个关系连续出现的次数。我想这就是n-gram的编码方式。然而，可能的关系数量是50，这意味着我不能真正采用这种方法

欢迎任何建议。

我们有一个基于依赖路径构建分类器的项目。我问开发该系统的小组成员，他说：

整个路径的指示器功能

因此，如果您有训练数据点（verb1-e1->w1-e2->w2-e3->w3-e4->verb2，relation1），那么特性将是（e1-e2-e3-e4）

他还做了ngram序列，所以对于相同的数据点，你也会有（e1），（e2），（e3），（e4），（e1-e2），（e2-e3），（e3-e4），（e1-e2-e3），（e2-e3-e4）

他还建议折叠同位边以使路径更小

此外，我应该注意到，他为每个关系开发了一组高精度规则，并使用这些规则创建了一大组训练数据