Stanford nlp 我如何训练自己的中国NER模型

Stanford nlp 我如何训练自己的中国NER模型,stanford-nlp,named-entity-recognition,Stanford Nlp,Named Entity Recognition,我正试图通过上述方式训练自己的中国NER模型。我将数据转换为每行一个汉字,并在字符后标记实体,如下所示: 红 组织机构 帽 组织机构 首 O 席 O 执 O 行 O 官 O 吉姆人 怀特赫斯特人 曾 O 表 O 示 O ,O 亚 组织机构 马 组织机构 逊 组织机构 公 O 共 O 云 O 有 O 许 O 多 O ... 在使用命令java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-prop tech.prop之后,它最终

我正试图通过上述方式训练自己的中国NER模型。我将数据转换为每行一个汉字,并在字符后标记实体,如下所示:


红 组织机构

帽 组织机构

首 O

席 O

执 O

行 O

官 O

吉姆人

怀特赫斯特人

曾 O

表 O

示 O

,O

亚 组织机构

马 组织机构

逊 组织机构

公 O

共 O

云 O

有 O

许 O

多 O

... 在使用命令
java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-prop tech.prop
之后,它最终生成了分类器(chinese.misc.distsim.crf.ser.gz)。然后我检查了Classifier在带注释的测试数据上的工作方式,我使用了命令
java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-loadClassifier chinese.misc.distsim.crf.ser.gz-testFile test.tsv
,它似乎可以工作

但是,当我使用命令
java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-loadClassifier chinese.misc.distsim.crf.ser.gz-textfile test.txt检查分类器时,似乎分类器没有用,它无法识别分词的中文


我培训新的中国NER模型时有什么问题吗?
我认为一个可能的问题是,我将训练数据转换为每行一个汉字。事实上,在中文中,一个汉字不是一个汉字,我是否应该使用分词中文训练数据,并将数据转换为每行一个汉字,然后标记汉字而不是汉字。

对于处理不同类型的文本输入可能有用的标志有:

-plainTextDocumentReaderAndWriter CLASSNAME Specify a class to read text documents (which extends DocumentReaderAndWriter)
-tokenizerFactory CLASSNAME Specify a class to do tokenization (which extends TokenizerFactory)
-tokenizerOptions "tokenizeNLs=true,asciiQuotes=true" Give options to the tokenizer, such as the two example options here. 
这可能也很有用:


除此之外,您还应该看看SeqClassifierFlags中的中文分词器功能

可用于处理不同类型文本输入的标志有:

-plainTextDocumentReaderAndWriter CLASSNAME Specify a class to read text documents (which extends DocumentReaderAndWriter)
-tokenizerFactory CLASSNAME Specify a class to do tokenization (which extends TokenizerFactory)
-tokenizerOptions "tokenizeNLs=true,asciiQuotes=true" Give options to the tokenizer, such as the two example options here. 
这可能也很有用:

除此之外,您还应该看看SeqClassifierFlags中的中文分词器功能