Algorithm 在没有标点符号的段落上执行句子分割?

Algorithm 在没有标点符号的段落上执行句子分割?,algorithm,text,nlp,stanford-nlp,opennlp,Algorithm,Text,Nlp,Stanford Nlp,Opennlp,我有一堆格式不好的文本,有很多标点符号缺失。我想知道,当句号、分号、大写字母等缺失时,是否有任何方法可以将文本分割成句子 例如,考虑段落:狮子被称为森林之王,它有雄伟的外表,它吃肉,它能跑得很快,狮子的吼叫很有名。< > 该文本应分割为单独的句子: 狮子被称为森林之王 它有一个庄严的外观 它吃肉 它可以跑得很快 狮子的吼叫非常有名 这是可以做到的还是不可能的?任何建议都将不胜感激 您可以训练序列分类器。获取大量培训材料非常容易:使用任何包含标点符号的语料库,执行句子分割,删除标点符号–瞧。

我有一堆格式不好的文本,有很多标点符号缺失。我想知道,当句号、分号、大写字母等缺失时,是否有任何方法可以将文本分割成句子

例如,考虑段落:<强>狮子被称为森林之王,它有雄伟的外表,它吃肉,它能跑得很快,狮子的吼叫很有名。< <强> > 该文本应分割为单独的句子:

  • 狮子被称为森林之王
  • 它有一个庄严的外观
  • 它吃肉
  • 它可以跑得很快
  • 狮子的吼叫非常有名

这是可以做到的还是不可能的?任何建议都将不胜感激

您可以训练序列分类器。获取大量培训材料非常容易:使用任何包含标点符号的语料库,执行句子分割,删除标点符号–瞧。@lenz用Python创建序列分类器的最简单方法是什么?你能用NLTK做这个吗?是的,NLTK有一个。通常,初学者会被介绍使用朴素贝叶斯分类器进行有监督的机器学习,这在概念上非常简单。@lenz这个分类器的输入和输出是什么?看看我最近发布的文章。