Stanford nlp 将文本拆分成句子的问题

Stanford nlp 将文本拆分成句子的问题,stanford-nlp,text-processing,Stanford Nlp,Text Processing,我正试图找到将文本拆分成句子的最佳方法 我试过斯坦福NLP,但实际上我对它的表现很失望 比如说 "Who are you?" asked another man. 它被识别为两句话:“你是谁?”和问另一个人 He said, "Nothing. Nothing at all." 它被认为是两句话: 他说,“什么都没有。和什么都没有。” 我还尝试了普通的Java BreakIterator.getSentenceInstance,但它不理解任何缩写。例如,总统先生,它分成两个句子“先生”和“总

我正试图找到将文本拆分成句子的最佳方法

我试过斯坦福NLP,但实际上我对它的表现很失望

比如说

"Who are you?" asked another man.
它被识别为两句话:
“你是谁?”
问另一个人

He said, "Nothing. Nothing at all."
它被认为是两句话:

他说,“什么都没有。
什么都没有。”

我还尝试了普通的Java BreakIterator.getSentenceInstance,但它不理解任何缩写。例如,总统先生,它分成两个句子“先生”和“总统”。斯坦福NLP并没有将塞缪尔·杰克逊或乔治·W·布什分成多个句子


因此,我不知道还有什么可以尝试。

有两种主要的方法可以进行句子拆分:

  • 基于规则的模型
  • 预测模型
  • CoreNLP使用类TokenizeProcessor进行句子拆分和标记化

    斯坦福NLP软件包使用这些数据来训练他们的英语模型

    似乎引号字符
    是数据中的一个重要特性

    回顾其中一个测试数据集,2000个句子中只有36个实例

    如果这是指示性的,那么句子分割模型似乎不能很好地表示该功能,这意味着它可能无法很好地使用引号分割句子

    这是很常见的,并且很可能您必须为您的数据训练句子分割模型


    或者,如果数据的上下文是可靠的,则基于规则的方法可能有效。

    您可能正在尝试边缘案例。您的目标文本如何执行?我不尝试边缘案例。这是正常文本。我指的是模型的边缘案例。它可能已在不同文本上进行了培训。您是否有特定文本要拆分?如果有,您可以显示e例如?我使用斯坦福大学NLP图书馆。这是我试过的示例文本:“死了。”他毫无感情地说。他说,“没什么。“没什么。”最后他说,“肯定是个麻烦。。。但这不是问题。他盯着法庭看了很长时间。“一张熟悉的脸,”他说。“没有胡子和雨水,也许我会认识你?”“你是谁?”另一个人问。法庭没有回答。相反,他说:“我们需要进去。快点。”谈判的结果至关重要,因为布什总统签署成为法律的现行税率将于12月31日到期。