Stanford nlp 斯坦福命名实体标记器-不一致?

Stanford nlp 斯坦福命名实体标记器-不一致?,stanford-nlp,named-entity-recognition,named-entity-extraction,Stanford Nlp,Named Entity Recognition,Named Entity Extraction,我有一个奇怪的问题 我有一个大约10万个句子的列表,它们想使用斯坦福命名实体识别器标记。我使用斯坦福大学ner演示网站Java演示代码提供的以下代码行进行标记 for (String str : List<sentences>) { System.out.print(classifier.classifyToString(str, "slashTags", false)); } 我以为一切都很顺利,直到我手动检查了一些根本没有标记的句子,它们应该被标记。但是,当这些没有标记的

我有一个奇怪的问题

我有一个大约10万个句子的列表,它们想使用斯坦福命名实体识别器标记。我使用斯坦福大学ner演示网站Java演示代码提供的以下代码行进行标记

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}
我以为一切都很顺利,直到我手动检查了一些根本没有标记的句子,它们应该被标记。但是,当这些没有标记的句子被手工挑选到一些样本列表中,并用上面的代码进行测试时,它们就被标记了。所以我很困惑我到底错在哪里。没有正确标记的句子大约在1000-1500个句子之间。所以,当我在一个单独的列表中运行这些错误标记的句子时,它们就被标记了。10万数据集的大小是否对分类器有任何影响

例如: 考虑下面的句子——IBM公司简介 在我的10万个数据集中,像上面这样的句子有相当多。因此,当我在10万个数据集上使用上述代码进行标记时,像这样的许多句子根本没有标记。但是,当我手工挑选它们并放入一个列表,然后做标记时,它们就被标记了

我已经尝试了所有的方法,在对整个数据集进行标记时,我最终得到了与上面一样的句子没有标记的结果

我尝试了以下三种不同的方法 1.classifier.classifyToStringinputString,slashTags,false 2.classifier.classifyinputString 3.classifier.classifyToCharacterOffsetsinputString

我哪里出了问题,有什么想法或建议吗


谢谢

我想你从下面的链接中得到了答案: