Language agnostic 拉丁语基础语言切分语法规则

Language agnostic 拉丁语基础语言切分语法规则,language-agnostic,nlp,Language Agnostic,Nlp,我正在研究一项功能,即为拉丁语(目前为英语)应用语言分割规则(语法) 目前我正处于打破用户输入句子的阶段 e.g.: "I am working in language translation". "I have used Google MT API for this" 在上面的例子中,我将用句号(.)来打断上面的句子。这是我在句点上打断句子的正常情况,但有n个字符用于打断句子,如(.!?等) 我有以下SRX分割规则 我的问题是:- 1) 是否有任何参考?可用于解析我的语言分段规则 2) 或

我正在研究一项功能,即为拉丁语(目前为英语)应用语言分割规则(语法)

目前我正处于打破用户输入句子的阶段

e.g.:

"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我将用句号(.)来打断上面的句子。这是我在句点上打断句子的正常情况,但有n个字符用于打断句子,如(.!?等)

我有以下SRX分割规则

我的问题是:-

1) 是否有任何参考?可用于解析我的语言分段规则

2) 或者有关于语言分割的论坛吗?,这样我可以有效地讨论

如果有人知道这件事,请告诉我


非常感谢。

语言学期刊上似乎有大量关于这方面的文献

这是一份关于这个问题的好报告,希望能对你有所帮助


尼科

你可能想看看雷纳和拉特纳帕基的论文(1997年)

摘要

我们提出了一个可训练的识别模型 原始文本中的句子边界。鉴于 带有句子边界的语料库, 我们的模型学习对每个事件进行分类 属于有效或无效的 句子边界。培训程序 不需要手工制定规则,lexica, 词性标记,或特定于域的标记 信息。因此,模型可以是 易于接受任何类型的英语培训,以及 应能在任何其他罗马字母表上进行培训 语言。性能相当 达到或优于……的表现 类似的系统,但我们强调简单性 新领域的再培训。
它们生成的分句器称为MxTerminator,并且可用

你的标签没什么意义,我把它改成了(我觉得)更好一点的东西。。。这是关于自然语言的,但编程语言不可知:)嘿,谢谢你的快速回复:)是的……确切地说,这是自然语言而不是编程语言。。我已经遵守了(SRX规则),但我没有与那些家伙互动…建议我其他链接或论坛,以便我可以有效地互动…感谢你,因为英语主要基于黑暗时代的撒克逊方言。语法是古德语、挪威语和少量中世纪法语的独特组合。有很多单词是从拉丁语中偷来的,但除了奇怪的怪癖(数据是单数)之外,英语中几乎没有基于拉丁语的语法。