Parsing 最准确的句子拆分开源工具是什么?

Parsing 最准确的句子拆分开源工具是什么?,parsing,nlp,tokenize,Parsing,Nlp,Tokenize,我需要把课文分成几个句子。我现在正在玩OpenNLP的句子检测器工具。我也听说过NLTK和斯坦福CoreNLP工具。最准确的英语句子检测工具是什么?我不需要太多NLP特性——只需要一个用于句子分割/检测的好工具 我也听说过Lucene…但那可能太多了。但是如果它有一个非常棒的句子检测模块,那么我将使用它。检查lingpipe的实现 他们的模型非常强大,并且易于实现——在任何可能的句子分割中检查一些前置/后置规则(也称为regexps),仅此而已。我发现它比GATE和OpenNLP中的一个工作得更

我需要把课文分成几个句子。我现在正在玩OpenNLP的句子检测器工具。我也听说过NLTK和斯坦福CoreNLP工具。最准确的英语句子检测工具是什么?我不需要太多NLP特性——只需要一个用于句子分割/检测的好工具


我也听说过Lucene…但那可能太多了。但是如果它有一个非常棒的句子检测模块,那么我将使用它。

检查lingpipe的实现

他们的模型非常强大,并且易于实现——在任何可能的句子分割中检查一些前置/后置规则(也称为regexps),仅此而已。我发现它比GATE和OpenNLP中的一个工作得更好


还有另一个开源项目支持这种启发式模型,例如,

Perl是一种文本处理语言,它是一种优秀且简单的文本挖掘资源。分句绝对没有问题


www.perl.org

NLTK包括中描述的Punkt标记器的实现。我不知道它是否绝对是最好的,但它非常非常好,它重量轻,易于使用,而且是免费的。

对于Perl,他们的许可费相当高,如果我使用他们要求的免版税许可证:“数据处理必须是免费的”。然后你可以检查我的项目图表达式,它目前是GPL,但我正在考虑换成LGPL,以防我找到其他提交人。我刚刚检查了你的项目。明天将对其进行测试:)。今天我看了一下NLTK和CPAN上的Lingua::EN::句子。NLTK还行,有一些不准确的地方。EN很难将有序列表识别为一个块。它允许附加缩写定义,但无法识别“1.”、“2.”等。perl是否有特定的分句模型?对于不同的领域,句子的定义可能不同。此外,它还需要能够处理缩写和句点后的双空格等。Perl是一种文本处理、模式匹配语言。缩写和间距问题可以处理。这个答案和其他提到NLTK、LingPipe或其他特定NLP工具的答案不一样。句子分割比正则表达式匹配更难——我不建议重新发明轮子。@DavidJames-David,Perl从1987年就出现了,它有丰富的源材料来执行简单和复杂的句子分割。我把它作为一个特性考虑到我所定义的质量中。@RalphWinters我并不是说Perl是低质量的。你的答案没有详细说明要使用什么模块。