Machine learning 如何将依赖路径编码为分类的特征?
我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征(预测关系X是否存在)。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例,它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释:Machine learning 如何将依赖路径编码为分类的特征?,machine-learning,nlp,stanford-nlp,feature-extraction,information-extraction,Machine Learning,Nlp,Stanford Nlp,Feature Extraction,Information Extraction,我正在尝试实现动词对之间的关系提取。我想使用从一个动词到另一个动词的依赖路径作为分类器的特征(预测关系X是否存在)。但我不确定如何将依赖路径编码为一个特性。以下是一些依赖路径示例,它们是来自StanfordCoreNLP折叠依赖项的空格分隔关系注释: nsubj acl nmod:from acl nmod:by conj:and nsubj nmod:into nsubj acl:relcl advmod nmod:of 重要的是要记住,这些路径的长度是可变的,并且关系可以在没有任何限制的情
nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
重要的是要记住,这些路径的长度是可变的,并且关系可以在没有任何限制的情况下重新出现
我想到的两种编码此功能的折衷方法是:
1) 忽略序列,每个关系只有一个特征,其值是它在路径中出现的次数
2) 具有长度为n的滑动窗口,并且对于每对可能的关系具有一个特征,其值为这两个关系连续出现的次数。我想这就是n-gram的编码方式。然而,可能的关系数量是50,这意味着我不能真正采用这种方法
欢迎任何建议。我们有一个基于依赖路径构建分类器的项目。我问开发该系统的小组成员,他说: