Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/338.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
JAVA:如何在斯坦福NLP中使用Gazettes?_Java_Nlp_Stanford Nlp_Named Entity Recognition - Fatal编程技术网

JAVA:如何在斯坦福NLP中使用Gazettes?

JAVA:如何在斯坦福NLP中使用Gazettes?,java,nlp,stanford-nlp,named-entity-recognition,Java,Nlp,Stanford Nlp,Named Entity Recognition,我读了这篇文章,但我不明白。我尝试使用以下代码: Properties pp=new Properties(); pp.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse"); pp.put("ner.useSUTime","false"); pp.put("useGazettes","true"); pp.put("gazette","C:\\gaz.txt"); StanfordC

我读了这篇文章,但我不明白。我尝试使用以下代码:

   Properties pp=new Properties();  
   pp.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse");
   pp.put("ner.useSUTime","false");

   pp.put("useGazettes","true");
   pp.put("gazette","C:\\gaz.txt");

   StanfordCoreNLP s=new StanfordCoreNLP(pp);
这是字符串:“丹在2008年成为音乐朋友协会的成员”

宪报档案为:

  CLASS Music friends association 
但“音乐朋友协会”并没有得到NER的认可


我错在哪里?

答案如下:

如果使用宪报,这并不保证宪报中的词语始终作为预期类别的成员使用,也不保证不会选择宪报以外的词语。它只是为CRF提供了另一个培训所需的功能。如果CRF对其他功能具有更高的权重,则宪报功能可能会被淹没

所以不能保证你的短语会以任何方式被标记。另一种选择是

斯坦福CoreNLP中包含的regexner或tokensregex工具


为什么您希望您的系统能够识别它?你在gaz.txt中有吗?应该识别gaz.txt文件中的命名实体只有这一行“CLASS Music friends association”如何使用带有tokensregex的公报?此外,如果我的实体跨越多个令牌,如“纽约”,我如何在位置公报中使用令牌regex进行查找,因为它接收并一次只查看一个令牌?令牌regex是一个if和only if匹配,而公报是一个建议。你的目标是什么:严格匹配,但针对特定的单词子集?就像纽约应该被接受,但洛杉矶在某些情况下不应该被接受为一个地点?也许斯坦福大学的团队会看到这一点并加入进来,但我认为你可能会喜欢tokensregex。