Nlp Stanford POS标记器和分类意图以及回复可能存在错误

Nlp Stanford POS标记器和分类意图以及回复可能存在错误,nlp,speech-recognition,stanford-nlp,pos-tagger,Nlp,Speech Recognition,Stanford Nlp,Pos Tagger,我有一个特定的用例,一个人会这样说: “嘿(触发字),对象历史记录XYZ中的注释”或: “嘿(触发字),在对象诊断中记录PQR” (“示例中使用的对象”是一个占位符,可以替换为“维护/患者”等词。) 我想承认的意图和插槽 然后我使用Stanford Parser解析句子,例如解析“对象历史记录中的注释对象上次更新是在2018年5月”给出了元组列表: [('Note', 'VB'), ('in', 'IN'), ('object', 'NN'), ('history', 'NN'),

我有一个特定的用例,一个人会这样说:

  • “嘿(触发字),对象历史记录XYZ中的注释”或:
  • “嘿(触发字),在对象诊断中记录PQR”
  • (“示例中使用的对象”是一个占位符,可以替换为“维护/患者”等词。)
我想承认的意图和插槽

然后我使用Stanford Parser解析句子,例如解析“对象历史记录中的注释对象上次更新是在2018年5月”给出了元组列表:

[('Note', 'VB'),
 ('in', 'IN'),
 ('object', 'NN'),
 ('history', 'NN'),
 ('object', 'NN'),
 ('was', 'VBD'),
 ('last', 'RB'),
 ('updated', 'VBN'),
 ('in', 'IN'),
 ('may', 'MD'),
 ('twenty', 'CD'),
 ('eighteen', 'CD')]
  • 现在,我的重点是如何使用这些信息获得必要的输出:

    • 注意位置(DB中有一个字段:对象历史记录)和
    • 注意事项(对象上次更新是在2018年5月)
  • 另一个问题是,由于NLP的输入来自ASR系统,因此缺少资本化。POS-Tagger错误地将“note”标记为“NN”(而不是“VB”)。理想情况下,“note”/“record”应该是动词。如何解决这个可能的错误


  • 您可以使用TrueCaseAnnotator修复案例问题:

    通常,您可能只想使用TokensRegex和write规则模式来处理这些模板。更多信息请点击此处:


    您只需删除“嘿(触发字)”,序言,然后将下一个字大写(*“Note”/“Record”/etc)。如果POSTagger仍然错误地将其归类为NN,那么您可以保留一个通常以句子开头的已知动作动词的列表,并将POS输出的第一个项目混在一起。(但也在POSTagger上提交了一个bug)非常感谢。我会记住这一点。现在,为第1部分添加了另一个查询。什么样的组块可以帮助我理解句子的第二部分(注意什么)。我可以从分块“位置中的注释”中找到注释的位置,但我仍然不确定如何获得该部分:注释什么。非常感谢。非常感谢,我还将尝试使用tokensregex,看看它如何有用。谢谢。