OpenNLP-即使使用缩写词典,缩写词仍然需要培训吗?

OpenNLP-即使使用缩写词典,缩写词仍然需要培训吗?,nlp,opennlp,Nlp,Opennlp,我只是用了一个小程序,我应该把一个段落分成几个句子 虽然我在阅读了一些文档并查看了他们的测试用例后能够完成任务,但我还是忍不住注意到,即使在我创建自定义缩写词典时,我仍然需要对所有缩写词(例如Yahoo!)进行培训,将其传递给SentenceDetectorFactory,并用于培训SentenceDetectorME 我使用的方法与本文中使用的方法类似 我在他们的文档中找不到这种行为,也找不到任何解释。我有什么遗漏吗 编辑:我的问题的解释 尽管我仍在努力使培训集适合我所从事的领域,但我的测试数

我只是用了一个小程序,我应该把一个段落分成几个句子

虽然我在阅读了一些文档并查看了他们的测试用例后能够完成任务,但我还是忍不住注意到,即使在我创建自定义缩写词典时,我仍然需要对所有缩写词(例如Yahoo!)进行培训,将其传递给
SentenceDetectorFactory
,并用于培训
SentenceDetectorME

我使用的方法与本文中使用的方法类似

我在他们的文档中找不到这种行为,也找不到任何解释。我有什么遗漏吗

编辑:我的问题的解释

尽管我仍在努力使培训集适合我所从事的领域,但我的测试数据来自web上的非结构化数据。有时它包含一个我的团队成员从未预料到的缩写。例如

Company (acq. by another company) is a good company.
在这种情况下,我们从不假设单词
acquired
acq.
那样出现,它显然被用作缩写

现在,我们可以添加
acq.
作为缩写,让模型继续工作(如广告所示),或者对模型进行培训。但是,即使在缩写词词典中添加了它,它也没有被视为缩写词,我们最终为这个缩写词建立了训练模型。这似乎偏离了缩写词典的概念

我在
NLTK
中用
punktencetokenizer
尝试了一个小例子,它工作得非常好


我不确定我是否有一个包含25000个句子的训练集,如果
OpenNLP
忽略缩写词典,这将产生不同。

你的训练数据有多大

如文件所述:

 The training data should contain at least 15000 sentences to create a model which performs well.

这可能是问题所在,应该提供一些大的培训数据来制作模型

是的,Opennlp是不可预测的!我不知道现在该怎么办!--你通过了吗?是的,我已经通过了。我将在创建至少15000个培训样本后回复。