Stanford nlp 斯坦福命名实体标记器-不一致？_Stanford Nlp_Named Entity Recognition_Named Entity Extraction

Stanford nlp 斯坦福命名实体标记器-不一致？

stanford-nlp

Stanford nlp 斯坦福命名实体标记器-不一致？,stanford-nlp,named-entity-recognition,named-entity-extraction,Stanford Nlp,Named Entity Recognition,Named Entity Extraction,我有一个奇怪的问题我有一个大约10万个句子的列表，它们想使用斯坦福命名实体识别器标记。我使用斯坦福大学ner演示网站Java演示代码提供的以下代码行进行标记 for (String str : List<sentences>) { System.out.print(classifier.classifyToString(str, "slashTags", false)); } 我以为一切都很顺利，直到我手动检查了一些根本没有标记的句子，它们应该被标记。但是，当这些没有标记的

我有一个奇怪的问题

我有一个大约10万个句子的列表，它们想使用斯坦福命名实体识别器标记。我使用斯坦福大学ner演示网站Java演示代码提供的以下代码行进行标记

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

我以为一切都很顺利，直到我手动检查了一些根本没有标记的句子，它们应该被标记。但是，当这些没有标记的句子被手工挑选到一些样本列表中，并用上面的代码进行测试时，它们就被标记了。所以我很困惑我到底错在哪里。没有正确标记的句子大约在1000-1500个句子之间。所以，当我在一个单独的列表中运行这些错误标记的句子时，它们就被标记了。10万数据集的大小是否对分类器有任何影响

例如：考虑下面的句子——IBM公司简介在我的10万个数据集中，像上面这样的句子有相当多。因此，当我在10万个数据集上使用上述代码进行标记时，像这样的许多句子根本没有标记。但是，当我手工挑选它们并放入一个列表，然后做标记时，它们就被标记了

我已经尝试了所有的方法，在对整个数据集进行标记时，我最终得到了与上面一样的句子没有标记的结果

我尝试了以下三种不同的方法 1.classifier.classifyToStringinputString，slashTags，false 2.classifier.classifyinputString 3.classifier.classifyToCharacterOffsetsinputString

我哪里出了问题，有什么想法或建议吗

谢谢

我想你从下面的链接中得到了答案：