Nlp Stanford POS标记器和分类意图以及回复可能存在错误_Nlp_Speech Recognition_Stanford Nlp_Pos Tagger

Nlp Stanford POS标记器和分类意图以及回复可能存在错误

nlp speech-recognition stanford-nlp

Nlp Stanford POS标记器和分类意图以及回复可能存在错误,nlp,speech-recognition,stanford-nlp,pos-tagger,Nlp,Speech Recognition,Stanford Nlp,Pos Tagger,我有一个特定的用例，一个人会这样说： “嘿（触发字），对象历史记录XYZ中的注释”或： “嘿（触发字），在对象诊断中记录PQR” （“示例中使用的对象”是一个占位符，可以替换为“维护/患者”等词。）我想承认的意图和插槽然后我使用Stanford Parser解析句子，例如解析“对象历史记录中的注释对象上次更新是在2018年5月”给出了元组列表： [('Note', 'VB'), ('in', 'IN'), ('object', 'NN'), ('history', 'NN'),

我有一个特定的用例，一个人会这样说：

“嘿（触发字），对象历史记录XYZ中的注释”或：
“嘿（触发字），在对象诊断中记录PQR”
（“示例中使用的对象”是一个占位符，可以替换为“维护/患者”等词。）

我想承认的意图和插槽

然后我使用Stanford Parser解析句子，例如解析“对象历史记录中的注释对象上次更新是在2018年5月”给出了元组列表：

[('Note', 'VB'),
 ('in', 'IN'),
 ('object', 'NN'),
 ('history', 'NN'),
 ('object', 'NN'),
 ('was', 'VBD'),
 ('last', 'RB'),
 ('updated', 'VBN'),
 ('in', 'IN'),
 ('may', 'MD'),
 ('twenty', 'CD'),
 ('eighteen', 'CD')]

现在，我的重点是如何使用这些信息获得必要的输出：

注意位置（DB中有一个字段：对象历史记录）和
注意事项（对象上次更新是在2018年5月）

另一个问题是，由于NLP的输入来自ASR系统，因此缺少资本化。POS-Tagger错误地将“note”标记为“NN”（而不是“VB”）。理想情况下，“note”/“record”应该是动词。如何解决这个可能的错误

您可以使用TrueCaseAnnotator修复案例问题：

通常，您可能只想使用TokensRegex和write规则模式来处理这些模板。更多信息请点击此处：

您只需删除“嘿（触发字）”，序言，然后将下一个字大写（*“Note”/“Record”/etc）。如果POSTagger仍然错误地将其归类为NN，那么您可以保留一个通常以句子开头的已知动作动词的列表，并将POS输出的第一个项目混在一起。（但也在POSTagger上提交了一个bug）非常感谢。我会记住这一点。现在，为第1部分添加了另一个查询。什么样的组块可以帮助我理解句子的第二部分（注意什么）。我可以从分块“位置中的注释”中找到注释的位置，但我仍然不确定如何获得该部分：注释什么。非常感谢。非常感谢，我还将尝试使用tokensregex，看看它如何有用。谢谢。