Stanford nlp 阿拉伯语文档的名称实体识别

Stanford nlp 阿拉伯语文档的名称实体识别,stanford-nlp,Stanford Nlp,我需要您的帮助,我正在使用NetBeans v.8.0.2进行NER项目 我需要从任何阿拉伯文档文件中获取人名和地点,并将其分类为人名、地点。我看到了所有的Stanford文件,POS-tagger,parser,还有Stanford-NER。我都试过了,贴标签的效果很好 但我在解析器方面遇到了问题,尤其是在这一行代码中 LexicalizedParser lp = LexicalizedParser.loadModel(grammar, options); 从ParserDemo没有输出。我

我需要您的帮助,我正在使用NetBeans v.8.0.2进行NER项目

我需要从任何阿拉伯文档文件中获取人名地点,并将其分类为人名、地点。我看到了所有的Stanford文件,POS-tagger,parser,还有Stanford-NER。我都试过了,贴标签的效果很好

但我在解析器方面遇到了问题,尤其是在这一行代码中

LexicalizedParser lp = LexicalizedParser.loadModel(grammar, options);

ParserDemo没有输出。我是否需要解析器首先标记文档,然后使用POS标记器,或者我可以使用POS标记器进行一些编辑(比如使用if语句将所有NNP组合在一起,并对位置使用相同的标记器)。

因此,首先,到目前为止,我们还没有任何阿拉伯文NER模型

其次,我将发布一些在阿拉伯语文本上运行斯坦福解析器的步骤

  • 获取斯坦福解析器:

  • 编译ParserDemo.java;您需要目录stanford-parser-full-2015-04-20中的jar进行编译

  • 我在stanford-parser-full-2015-04-20目录下的命令行中运行了这个命令(在NetBeans中执行类似的操作):

  • java-cp.“:*”ParserDemo-edu/stanford/nlp/models/lexparser/arabicFactored.ser.gz data/arabic-onesent-utf8.txt

    你应该对阿拉伯语例句进行正确的解析

    因此,在NetBeans中运行ParserDemo时,请确保提供“edu/stanford/nlp/models/lexparser/arabicFactored.ser.gz”作为ParserDemo的第一个参数,以便它知道如何加载阿拉伯语模型

    对于此输入:

    و نشر العدل من خلال قضاء مستقل 
    
    我得到这个输出:

    (ROOT
      (S (CC و)
        (VP (VBD نشر)
          (NP (DTNN العدل))
          (PP (IN من)
            (NP (NN خلال)
              (NP (NN قضاء) (JJ مستقل)))))
        (PUNC .)))
    
    我很高兴能进一步帮助你,如果你需要更多信息,请告诉我

    仅供参考,以下是有关阿拉伯语解析器的更多信息:


    亲爱的先生,非常感谢您的回答。在我提问之前,我做了所有这些,并且我阅读了所有NER、解析器、分段器等的常见问题解答,。。。我尝试了你在你的例子中提到的培训数据,我尝试了你在你的例子中提到的培训数据,我的工作很好,但问题是当你需要同一人的全名时,你需要同一人的全名,比如(如(15884托托托托托托托托托托托托托托维维维维亚我尝试了你在你的例子中提到的例子中提到的培训数据,我的工作很好,但我的工作很好,但问题是,但问题是当你需要同一人的全名时你需要同一人的全名的全名,但问题是问题是当你需要同一人的全名的全名,比如(比如(15151515158484维托托托托托托托托托托托托托托托托托托托托托托托托托托托基基基基基基基基(16077777777777777777777777777777777。结果(ROOT(S)(VP)(NP)(dp)(DTNNP)(DTNNP)我看到了这篇文章,我尝试了同样的方法,但没有效果。我需要的是:阿拉伯语中的复合名称要相互连接,例如(عباله،)(محببب㶎)。另一个问题:在英语语法分析器中,有一个叫做(grammaticstructurefactory gsf=tlp.grammaticstructurefactory();)的东西,在阿拉伯语中也有同样的东西。非常感谢你的帮助。我真的很感激。