Nlp 门中的分句器

Nlp 门中的分句器,nlp,gate,information-extraction,Nlp,Gate,Information Extraction,我正在尝试使用GATE来检测句子,更具体地说是使用ANNIE SentenceSplitter或RegexSentenceSplitter RegexSentenceSplitter似乎工作得很好,但是唯一的问题是在文档的每个新页面的开头都创建了一个新的句子注释。(所分析的文件为PDF) 是否可以更改RegexSentenceSplitter的此行为?您可能可以尝试使用条件语料库管道。此方法允许您根据文档上某个功能的值运行PR(此处为RegExSentenceSplitter)或不运行PR 这里

我正在尝试使用GATE来检测句子,更具体地说是使用ANNIE SentenceSplitter或RegexSentenceSplitter

RegexSentenceSplitter似乎工作得很好,但是唯一的问题是在文档的每个新页面的开头都创建了一个新的句子注释。(所分析的文件为PDF)


是否可以更改RegexSentenceSplitter的此行为?

您可能可以尝试使用条件语料库管道。此方法允许您根据文档上某个功能的值运行PR(此处为RegExSentenceSplitter)或不运行PR


这里有更多详细信息:

你说的在每页开头创建的是什么意思?这意味着RegexSentenceSplitter在不应该创建的时候创建了一个句子注释。换句话说,我不希望在文档页面的每个开头都创建新的句子注释