Stanford nlp 我如何训练自己的中国NER模型_Stanford Nlp_Named Entity Recognition

Stanford nlp 我如何训练自己的中国NER模型

stanford-nlp

Stanford nlp 我如何训练自己的中国NER模型,stanford-nlp,named-entity-recognition,Stanford Nlp,Named Entity Recognition,我正试图通过上述方式训练自己的中国NER模型。我将数据转换为每行一个汉字，并在字符后标记实体，如下所示：红组织机构帽组织机构首 O 席 O 执 O 行 O 官 O 吉姆人怀特赫斯特人曾 O 表 O 示 O ，O 亚组织机构马组织机构逊组织机构公 O 共 O 云 O 有 O 许 O 多 O ... 在使用命令java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-prop tech.prop之后，它最终

我正试图通过上述方式训练自己的中国NER模型。我将数据转换为每行一个汉字，并在字符后标记实体，如下所示：

红组织机构

帽组织机构

首 O

席 O

执 O

行 O

官 O

吉姆人

怀特赫斯特人

曾 O

表 O

示 O

，O

亚组织机构

马组织机构

逊组织机构

公 O

共 O

云 O

有 O

许 O

多 O

... 在使用命令

java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-prop tech.prop

之后，它最终生成了分类器（chinese.misc.distsim.crf.ser.gz）。然后我检查了Classifier在带注释的测试数据上的工作方式，我使用了命令

java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-loadClassifier chinese.misc.distsim.crf.ser.gz-testFile test.tsv

，它似乎可以工作

但是，当我使用命令

java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-loadClassifier chinese.misc.distsim.crf.ser.gz-textfile test.txt检查分类器时，似乎分类器没有用，它无法识别分词的中文

我培训新的中国NER模型时有什么问题吗？
我认为一个可能的问题是，我将训练数据转换为每行一个汉字。事实上，在中文中，一个汉字不是一个汉字，我是否应该使用分词中文训练数据，并将数据转换为每行一个汉字，然后标记汉字而不是汉字。
对于处理不同类型的文本输入可能有用的标志有：
-plainTextDocumentReaderAndWriter CLASSNAME Specify a class to read text documents (which extends DocumentReaderAndWriter)
-tokenizerFactory CLASSNAME Specify a class to do tokenization (which extends TokenizerFactory)
-tokenizerOptions "tokenizeNLs=true,asciiQuotes=true" Give options to the tokenizer, such as the two example options here. 

这可能也很有用：

除此之外，您还应该看看SeqClassifierFlags中的中文分词器功能
 可用于处理不同类型文本输入的标志有：
-plainTextDocumentReaderAndWriter CLASSNAME Specify a class to read text documents (which extends DocumentReaderAndWriter)
-tokenizerFactory CLASSNAME Specify a class to do tokenization (which extends TokenizerFactory)
-tokenizerOptions "tokenizeNLs=true,asciiQuotes=true" Give options to the tokenizer, such as the two example options here. 

这可能也很有用：

除此之外，您还应该看看SeqClassifierFlags中的中文分词器功能