Stanford nlp 斯坦福标点符号

Stanford nlp 斯坦福标点符号,stanford-nlp,Stanford Nlp,我们正在使用斯坦福NER为法语报纸文本训练我们自己的(CRF)分类器。 我们在标点符号方面遇到了问题,特别是斯坦福大学的研究人员似乎用其他标点符号取代了一些标点符号 下面是一个示例,其中“aujourd'hui”中的替换为`,将«和»括在圣母玛利亚圣母院中的替换为` 输入原始文本: " Aujourd'hui ... « Ave Maria » et ..." word | tag | begin-offset | end-offset Aujourd | O | 31

我们正在使用斯坦福NER为法语报纸文本训练我们自己的(CRF)分类器。 我们在标点符号方面遇到了问题,特别是斯坦福大学的研究人员似乎用其他标点符号取代了一些标点符号

下面是一个示例,其中“aujourd'hui”中的
替换为
`
,将
«
»
括在
圣母玛利亚圣母院
中的
替换为
`

输入原始文本:

" Aujourd'hui ... « Ave Maria » et ..."
word    | tag | begin-offset | end-offset

Aujourd | O   | 31           | 38

`       | O   | 38           | 39

hui     | O   | 39           | 42


``      | O   | 331          | 332

Ave     | O   | 333          | 336

Maria   | O   | 337          | 342

''      | O   | 343          | 344
输出:

" Aujourd'hui ... « Ave Maria » et ..."
word    | tag | begin-offset | end-offset

Aujourd | O   | 31           | 38

`       | O   | 38           | 39

hui     | O   | 39           | 42


``      | O   | 331          | 332

Ave     | O   | 333          | 336

Maria   | O   | 337          | 342

''      | O   | 343          | 344
我们在创建分类器时测试了以下标志:

-outputFormatOptions includePunctuationDependencies

-inputEncoding utf-8 

-outputEncoding utf-8
但没有一个成功


非常感谢您的帮助。

下面是一个使用法语标记器标记法语文本的示例命令:

java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-french.properties -file example-french-sentence-one.txt -outputFormat text
请注意tokenize属性:

tokenize.language=fr

这将告诉标记器使用法语标记器

这应该可以处理
Aujourd'hui
的情况,但不幸的是,guillemets是硬编码的,在法语lexer中转换为
,并且没有任何选项改变这种行为

如果有机会,我会尝试对法语标记器进行更改,将该行为设置为可选


您可以使用选项
tokenize.whitespace
向管道提供已经标记化的文本,如果您在将文本提交给Stanford CoreNLP之前有另一种方法标记化文本,则只需提供按空格分割的每个标记。否则,您可能希望处理您的培训数据,以匹配斯坦福CoreNLP将其标记化的方式,这可能是另一种选择

下面是一个使用法语标记器标记法语文本的示例命令:

java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-french.properties -file example-french-sentence-one.txt -outputFormat text
请注意tokenize属性:

tokenize.language=fr

这将告诉标记器使用法语标记器

这应该可以处理
Aujourd'hui
的情况,但不幸的是,guillemets是硬编码的,在法语lexer中转换为
,并且没有任何选项改变这种行为

如果有机会,我会尝试对法语标记器进行更改,将该行为设置为可选

您可以使用选项
tokenize.whitespace
向管道提供已标记化的文本,如果您在将文本提交给Stanford CoreNLP之前有另一种方法标记化文本,则只需提供按空格分割的每个标记。否则,您可能需要处理培训数据,以匹配Stanford CoreNLP标记化的方式这可能是另一种选择