Nlp Parsey McParseface错误地识别问题的根

Nlp Parsey McParseface错误地识别问题的根,nlp,tensorflow,pos-tagger,dependency-parsing,parsey-mcparseface,Nlp,Tensorflow,Pos Tagger,Dependency Parsing,Parsey Mcparseface,在我看来,帕西在正确标注问题和任何带有“是”的句子方面都有严重的问题 Text:Barrack Obama是夏威夷人吗? GCloud令牌(正确): 是-[根]动词吗 兵营-[nn]名词 奥巴马-[nsubj]名词 from-[adp]PREP 夏威夷-[pobj]名词 Parsey令牌(错误): 是-[cop]动词吗 兵营-[nsubj]名词 奥巴马-[根]名词 from-[adp]PREP 夏威夷-[pobj]名词 帕西决定用名词(!)Obama作为词根,这会把其他一切都搞砸 文

在我看来,帕西在正确标注问题和任何带有“是”的句子方面都有严重的问题


Text:Barrack Obama是夏威夷人吗?

GCloud令牌(正确):

  • 是-[根]动词吗
  • 兵营-[nn]名词
  • 奥巴马-[nsubj]名词
  • from-[adp]PREP
  • 夏威夷-[pobj]名词
Parsey令牌(错误):

  • 是-[cop]动词吗
  • 兵营-[nsubj]名词
  • 奥巴马-[根]名词
  • from-[adp]PREP
  • 夏威夷-[pobj]名词
帕西决定用名词(!)Obama作为词根,这会把其他一切都搞砸


文本:我的名字是菲利普

GCloud令牌(正确):

  • 我的[可能的]PRON
  • 名称[名词]
  • 是[根]动词吗
  • 飞利浦[attr]名词
ParseyTokens(不正确):

  • 我的[可能的]PRON
  • 名称[名词]
  • [警察]是动词吗
  • 菲利普[根]名词
帕西再次选择这个名词作为词根,并与COP斗争


你知道为什么会发生这种情况,以及我如何解决它吗

谢谢,
菲尔

我必须限定我的答案:我对帕西·麦克帕塞法的了解有限。不过,由于没有其他人回答,我希望我能增加一些价值

我认为大多数机器学习模型的一个主要问题是缺乏可解释性。这涉及到你的第一个问题:“为什么会发生这种情况?”很难说,因为这个工具是建立在一个“黑箱”模型上的,即神经网络。我要说的是,这似乎非常令人惊讶,因为一个像“是”这样的常用词总是愚弄它。你可能犯了什么错误吗?没有代码示例很难判断

我假设你没有犯错误,在这种情况下,我认为你可以通过利用你的观察来解决这个问题(或减轻它),你的观察结果是“是”这个词似乎会推翻这个模型。您可以简单地检查有问题的句子中的单词“is”,并在这种情况下使用GCloud(或其他解析器)。方便的是,一旦您同时使用了这两种方法,您就可以使用GCloud作为Parsey似乎失败的其他情况的后备方案,如果您将来发现它们的话


至于改进基础模型,如果您足够关心,您可以使用重新创建它,也许还可以优化培训以适应您的情况。

关于第一个示例,Parsey的培训数据似乎很旧,甚至没有提到“Barack”一词。 如果你用比尔·克林顿取代巴拉克·奥巴马,你会得到一个正确的解析


输入:比尔·克林顿是夏威夷人吗?
解析:
是VBZ根吗
+--克林顿NNP nsubj
|+--比尔NNP NNP
+--从预科
|+--夏威夷NNP pobj
+-- ? . 点刺

第二个例子是根据斯坦福依存关系正确解析的(参见中的“copula动词的处理”)


输入:我叫菲利普
解析:
Philip NNP根
+--名称NN nsubj
|+--我的PRP$poss
+--VBZ是警察吗

既然它正确地将巴拉克·奥巴马(Barack Obama)标记为两个名词,我不认为它对这个名字不熟悉是问题所在。我认为帕西禁止使用“is”作为词根

在理论依存语法中,名词永远不是完整句子的词根。然而,帕西并不遵循理论;它有一个强烈的偏好,就是把内容词做成标题。我认为它决定了当你说“X是Y”时,句子的开头应该是“X”而不是“is”,因为“is”不是一个信息丰富的词


…除了比尔·克林顿的例子,这可能证明我错了!我还没有让帕西在我自己的电脑上工作,所以我不确定

从未使用过Tensorflow,但只有标题值得投票^^