Machine learning 如何将依赖路径编码为分类的特征?

Machine learning 如何将依赖路径编码为分类的特征?,machine-learning,nlp,stanford-nlp,feature-extraction,information-extraction,Machine Learning,Nlp,Stanford Nlp,Feature Extraction,Information Extraction,我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征(预测关系X是否存在)。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例,它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释: nsubj acl nmod:from acl nmod:by conj:and nsubj nmod:into nsubj acl:relcl advmod nmod:of 重要的是要记住,这些路径的长度是可变的,并且关系可以在没有任何限制的情

我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征(预测关系X是否存在)。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例,它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释:

nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
重要的是要记住,这些路径的长度是可变的,并且关系可以在没有任何限制的情况下重新出现

我想到的两种编码此功能的折衷方法是:

1) 忽略序列,每个关系只有一个特征,其值是它在路径中出现的次数

2) 具有长度为n的滑动窗口,并且对于每对可能的关系具有一个特征,其值为这两个关系连续出现的次数。我想这就是n-gram的编码方式。然而,可能的关系数量是50,这意味着我不能真正采用这种方法


欢迎任何建议。

我们有一个基于依赖路径构建分类器的项目。我问开发该系统的小组成员,他说:

  • 整个路径的指示器功能

    因此,如果您有训练数据点(verb1-e1->w1-e2->w2-e3->w3-e4->verb2,relation1),那么特性将是(e1-e2-e3-e4)

  • 他还做了ngram序列,所以对于相同的数据点,你也会有(e1),(e2),(e3),(e4),(e1-e2),(e2-e3),(e3-e4),(e1-e2-e3),(e2-e3-e4)

    他还建议折叠同位边以使路径更小

  • 此外,我应该注意到,他为每个关系开发了一组高精度规则,并使用这些规则创建了一大组训练数据