Nlp 如何自动检测文本文件中的句子片段

Nlp 如何自动检测文本文件中的句子片段,nlp,detection,sentence,Nlp,Detection,Sentence,我正在做一个项目,需要一个工具或API来检测大文本中的句子片段。有许多解决方案,例如OpenNLP,用于检测给定文件中的句子。然而,我找不到任何明确的方法来解决这个问题,即寻找不属于任何语法正确句子的单词、短语或事件字符组合 任何帮助都将不胜感激 谢谢 Lorderon您可以使用n-gram作为解决方案: 假设您有一个包含真实句子的大量文本供参考。您可以提取1、2、3、4、5或更多单词的所有序列,然后在文本中仔细检查文本中的片段是否以n-gram形式存在 你可以直接从谷歌下载n-gram,但你可

我正在做一个项目,需要一个工具或API来检测大文本中的句子片段。有许多解决方案,例如OpenNLP,用于检测给定文件中的句子。然而,我找不到任何明确的方法来解决这个问题,即寻找不属于任何语法正确句子的单词、短语或事件字符组合

任何帮助都将不胜感激

谢谢


Lorderon

您可以使用n-gram作为解决方案:

假设您有一个包含真实句子的大量文本供参考。您可以提取1、2、3、4、5或更多单词的所有序列,然后在文本中仔细检查文本中的片段是否以n-gram形式存在

你可以直接从谷歌下载n-gram,但你可能需要大量的流量

您也可以自己计算n-gram。在本例中,您可以从我的网站获取维基百科的解析数据集:
和源代码,以便自己创建ngram(或任何其他ngram工具包,如srilm、kylm、opengrm等)

Hi Rene。谢谢你的回复。我不太确定n-grams是否能帮我。你怎么确定说5克甚至3克有时不是一句话?我只是想弄明白,因为我不是计算语言学的人。另外,当我有一个大的文本数据时,我如何再次检查误报是否不大。