elasticsearch,nlp,nltk,spacy,Regex,elasticsearch,Nlp,Nltk,Spacy" /> elasticsearch,nlp,nltk,spacy,Regex,elasticsearch,Nlp,Nltk,Spacy" />

Regex 将句子与语料库对齐并发现不匹配

Regex 将句子与语料库对齐并发现不匹配,regex,elasticsearch,nlp,nltk,spacy,Regex,elasticsearch,Nlp,Nltk,Spacy,理想的目标是根据参考语料库(实际文本)纠正speech2text模型的输出。我不介意在NLP空间或ElasticSearch中使用任何脱离自我的工具 我有一个参考语料库,如下所示: 正是这种依赖导致了一个恶性循环 当你试图停止时,它是一个让你生病的循环 如果你不这样做,就有可能夺走你的生命 这种成瘾循环的影响还包括经常接触 刑事司法系统,而不仅仅是逮捕和释放的循环 和违反 事实上它要长得多 另一方面,我有一组从CSV文件中的speech-2-text模型识别的句子 1, is a cycle t

理想的目标是根据参考语料库(实际文本)纠正speech2text模型的输出。我不介意在NLP空间或ElasticSearch中使用任何脱离自我的工具

我有一个参考语料库,如下所示:

正是这种依赖导致了一个恶性循环 当你试图停止时,它是一个让你生病的循环 如果你不这样做,就有可能夺走你的生命 这种成瘾循环的影响还包括经常接触 刑事司法系统,而不仅仅是逮捕和释放的循环 和违反

事实上它要长得多

另一方面,我有一组从CSV文件中的speech-2-text模型识别的句子

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond
如您所见,由于speech2text模型并不完美,因此存在错误,例如

1) 参考语料库,这些子句子拼写错误(例如,第1句中的dick而不是sick) 2) 有些句子与语料库完全不匹配,例如数字3 3) 把这些句子放在一起并不能涵盖整个段落

因此,基本上我想知道NLP主题中的这项任务叫什么,然后我可以做得更好。如果你能说出我可以利用的具体功能或示例,例如在Space或NLTK或任何其他工具中,我将不胜感激


编辑:*我已经有nlp(coursera证书)的经验-因此,我想找一个具体的答案和/或例子,而不是一篇科学论文。这不是一般的错误纠正任务,也不是基于顺序模型的下一个工作建议

最适合这种情况的NLP技术可能是语言模型。 他们根据前面的单词(或周围的单词)预测单词的可能性。 它们可用于纠错。
您可能会发现以下内容很有用:

为什么您认为这“不是一项一般的错误纠正任务”?我想是的。你可以研究“语法纠正”或“句子有效性”


句子的有效性在第三章讨论。列出的工具还提供建议,因此可能对您有用

我正在寻找一个更具体的答案和/或例子。这不是一般的纠错任务,也不是基于顺序模型的下一个工作建议。当你在发布答案后编辑你的问题时,你应该在添加的段落开头加上“编辑:”一词,谢谢你提醒我,但这不应该成为降级的理由。