Stanford nlp 邮政编码分类

Stanford nlp 邮政编码分类,stanford-nlp,Stanford Nlp,我已经在POSTagger培训了一个新语言的模型。不幸的是,标记器对大数字(不是以文字形式书写)进行了错误分类 例如: “有2名医生。”这2名医生将被正确归类为NUM “市长贪污了274556美元。”274556美元将被列为机密 作为动词或名词 英国模特似乎不受此影响。我如何确保所有数字(不是文字)都被归类为NUM 编辑最新的.prop文件 ## tagger training invoked at Thu May 07 19:42:46 CEST 2015 with arguments

我已经在POSTagger培训了一个新语言的模型。不幸的是,标记器对大数字(不是以文字形式书写)进行了错误分类

例如:

“有2名医生。”这2名医生将被正确归类为NUM

“市长贪污了274556美元。”274556美元将被列为机密 作为动词或名词

英国模特似乎不受此影响。我如何确保所有数字(不是文字)都被归类为NUM

编辑最新的.prop文件

    ## tagger training invoked at Thu May 07 19:42:46 CEST 2015 with arguments:
                   model = models/czech.tagger
                    arch = bidirectional, naacl2003unknowns, words(0,3),words(0,4),words(0,5), unicodeshapes(-2,2), allunicodeshapes(-2,2)
            wordFunction =
               trainFile = format=TSV,corpora/train.corpus
         closedClassTags =
 closedClassTagThreshold = 40
 curWordMinFeatureThresh = 2
                   debug = false
             debugPrefix =
            tagSeparator = /
                encoding = UTF-8
              iterations = 100
                    lang =
    learnClosedClassTags = false
        minFeatureThresh = 5
           openClassTags = ADJ ADV INTJ NOUN PROPN VERB
rareWordMinFeatureThresh = 10
          rareWordThresh = 5
                  search = owlqn2
                    sgml = false
            sigmaSquared = 0.5
                   regL1 = 1.0
testFile上的结果:

Results on 10148 sentences and 174254 words, of which 12199 were unknown.
Total sentences right: 7983 (78.665747%); wrong: 2165 (21.334253%).
Total tags right: 171223 (98.260585%); wrong: 3031 (1.739415%).
Unknown words right: 11080 (90.827117%); wrong: 1119 (9.172883%).
标签错误分类(与上述句子大致相同):


您可以发布用于培训标记员的
.properties
文件吗?我想您错过了架构规范中的
unicodeshapes
命令。您是对的。我使用了双向和NAACL2003未知抽取器。在我添加unicodeshapes(-2,2)后,我在testFile上获得了更高的成功率,但不幸的是,非常大的数字(如我原来的帖子)仍然被错误分类。@JonGauthier我认为拱门不是问题所在。我使用了德语道具(正确分类数字)并更改了标签和培训文件。新模型再次分类错误。是否可能在一个Java源文件中定义了已实现语言的编号分类?
Jsou    VERB
zde ADV
2   NUM
doktoři NOUN
.   PUNCT

Místní  ADJ
radní   NOUN
zpronevěřil VERB
2474556 NOUN
korun   NOUN
.   PUNCT