Nlp 通过远程监督提取关系的负面例子来自哪里?

Nlp 通过远程监督提取关系的负面例子来自哪里?,nlp,Nlp,在视频中,Dan Jurafsky展示了如何从种子开始,在语料库中搜索它们,并提取这些种子实例的特征(尽管他没有说明nlp从业者如何提取特征:) 他接着说,语料库中的种子实例被视为监督分类器的正面例子。但是监督分类器需要正反两方面的例子。当NLP实践者通过远程监督进行这种关系提取时,负面示例从何而来?通常,在远程监督中,负面示例生成是一种启发式方法,通常依赖于语料库。对于关系抽取,通常假设语料库是完整的。因此,对于给定的一对实体(a,b),语料库中a和b之间没有关系被视为a和b事实上不相关的证据

在视频中,Dan Jurafsky展示了如何从种子开始,在语料库中搜索它们,并提取这些种子实例的特征(尽管他没有说明nlp从业者如何提取特征:)


他接着说,语料库中的种子实例被视为监督分类器的正面例子。但是监督分类器需要正反两方面的例子。当NLP实践者通过远程监督进行这种关系提取时,负面示例从何而来?

通常,在远程监督中,负面示例生成是一种启发式方法,通常依赖于语料库。对于关系抽取,通常假设语料库是完整的。因此,对于给定的一对实体
(a,b)
,语料库中
a
b
之间没有关系被视为
a
b
事实上不相关的证据。这提供了一对
(a,b)
作为反面示例

例如,在Jurafsky的论文中,作者通过随机选择不出现在任何Freebase关系中的实体对,建立了一个称为
不相关的显式关系。请注意,正如正面例子一样,负面例子在远程监督中也会发出噪音。我引用sec的话。6.3同一份文件:

虽然这些实体对中的一些可能事实上是相关的,但从Freebase数据中被错误地忽略了,但我们预计这些实体对平均 假阴性对分类器的性能影响很小

请注意,本文来自2009年。研究人员很快就发现了“我们期望……有一点效果……”这句话。最近关于使用远程监控进行关系提取的工作试图克服由简单启发式(如我刚才描述的)产生的错误否定的不利影响。这是因为在现实中,知识库(如Freebase)通常是不完整的。举几个例子:

  • 与段落检索模型一起使用的多实例学习器。文章检索模型对否定的例子进行排序,以反映它们实际上是否定的可能性。(参考)
  • 从正面和未标记的例子中学习关系,而不是从明确的负面例子中学习关系。(参考)

  • 这两篇论文都是2013年的。不幸的是,对这些方法的更详细解释或分析超出了SO的范围。

    可能来自freebase?