OpenNLP-即使使用缩写词典，缩写词仍然需要培训吗？_Nlp_Opennlp

OpenNLP-即使使用缩写词典，缩写词仍然需要培训吗？

nlp

OpenNLP-即使使用缩写词典，缩写词仍然需要培训吗？,nlp,opennlp,Nlp,Opennlp,我只是用了一个小程序，我应该把一个段落分成几个句子虽然我在阅读了一些文档并查看了他们的测试用例后能够完成任务，但我还是忍不住注意到，即使在我创建自定义缩写词典时，我仍然需要对所有缩写词（例如Yahoo！）进行培训，将其传递给SentenceDetectorFactory，并用于培训SentenceDetectorME 我使用的方法与本文中使用的方法类似我在他们的文档中找不到这种行为，也找不到任何解释。我有什么遗漏吗编辑：我的问题的解释尽管我仍在努力使培训集适合我所从事的领域，但我的测试数

我只是用了一个小程序，我应该把一个段落分成几个句子

虽然我在阅读了一些文档并查看了他们的测试用例后能够完成任务，但我还是忍不住注意到，即使在我创建自定义缩写词典时，我仍然需要对所有缩写词（例如Yahoo！）进行培训，将其传递给

SentenceDetectorFactory

，并用于培训

SentenceDetectorME

我使用的方法与本文中使用的方法类似

我在他们的文档中找不到这种行为，也找不到任何解释。我有什么遗漏吗

编辑：我的问题的解释

尽管我仍在努力使培训集适合我所从事的领域，但我的测试数据来自web上的非结构化数据。有时它包含一个我的团队成员从未预料到的缩写。例如

Company (acq. by another company) is a good company.

在这种情况下，我们从不假设单词

acquired

像

acq.

那样出现，它显然被用作缩写

现在，我们可以添加

acq.

作为缩写，让模型继续工作（如广告所示），或者对模型进行培训。但是，即使在缩写词词典中添加了它，它也没有被视为缩写词，我们最终为这个缩写词建立了训练模型。这似乎偏离了缩写词典的概念

我在

NLTK

中用

punktencetokenizer

尝试了一个小例子，它工作得非常好

我不确定我是否有一个包含25000个句子的训练集，如果

OpenNLP

忽略缩写词典，这将产生不同。

你的训练数据有多大

如文件所述：

 The training data should contain at least 15000 sentences to create a model which performs well.

这可能是问题所在，应该提供一些大的培训数据来制作模型

是的，Opennlp是不可预测的！我不知道现在该怎么办！--你通过了吗？是的，我已经通过了。我将在创建至少15000个培训样本后回复。