Nlp 基于大写文本的命名实体识别

Nlp 基于大写文本的命名实体识别,nlp,opennlp,stanford-nlp,Nlp,Opennlp,Stanford Nlp,如何从大写文本中提取实体 我使用- 有了测试数据,我知道汤姆住在伦敦 伦敦-地点 汤姆-身份不明 未确定关系 有了测试数据,我知道汤姆住在伦敦。 汤姆人 伦敦-地点 正确识别关系 如何改进这一点 我遇到了与你完全相同的问题。最好的方法是使用自己的字典。它将比使用Stanford NER快得多 以下是一些来源 http://deron.meranda.us/data/census-dist-female-first.txt (4275 entries) http://deron.meranda.u

如何从大写文本中提取实体

我使用-

有了测试数据,我知道汤姆住在伦敦

伦敦-地点 汤姆-身份不明 未确定关系

有了测试数据,我知道汤姆住在伦敦。 汤姆人 伦敦-地点 正确识别关系


如何改进这一点

我遇到了与你完全相同的问题。最好的方法是使用自己的字典。它将比使用Stanford NER快得多

以下是一些来源

http://deron.meranda.us/data/census-dist-female-first.txt (4275 entries)
http://deron.meranda.us/data/census-dist-male-first.txt (1219 entries)
http://deron.meranda.us/data/census-derived-all-first.txt

您可以尝试使用忽略案例的无案例模型。但要确保你只在所有大写或小写的句子上使用这个,以获得最佳效果

无壳模型在English models jar中提供。您可以在此处下载该jar模型:

您需要设置“ner.model”参数以使用无壳模型:

Properties props = new Properties();
props.setProperty("ner.model", "edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz");
我认为,在下一个NER系统中,自动检测句子是全大写还是全小写,并对这些句子使用无大小写模式,这可能是一个很酷的新功能