Stanford nlp Stanford Segmenter：如何生成阿拉伯语单词段以及标记/段字符起始偏移量和长度？_Stanford Nlp

Stanford nlp Stanford Segmenter：如何生成阿拉伯语单词段以及标记/段字符起始偏移量和长度？

stanford-nlp

Stanford nlp Stanford Segmenter：如何生成阿拉伯语单词段以及标记/段字符起始偏移量和长度？,stanford-nlp,Stanford Nlp,使用Stanford阿拉伯语分词器，我们希望标记和分割阿拉伯语文本。ArabicSegmenter成功地做到了这一点，但结果并不保留令牌（CoreLabels）的原始字符偏移量。此外，ArabicSegmenter类（3.5.2）中使用的ArabicTokenizer的结果将所有字符偏移量（即开始）设置为0的标记如何获得阿拉伯文单词段以及结果核心标签的字符偏移量从ArabicTokenizer到0的字符偏移量是由于一个错误造成的，该错误现在已在中修复。该修复程序将包含在下一个CoreNLP版

使用Stanford阿拉伯语分词器，我们希望标记和分割阿拉伯语文本。ArabicSegmenter成功地做到了这一点，但结果并不保留令牌（CoreLabels）的原始字符偏移量。此外，ArabicSegmenter类（3.5.2）中使用的ArabicTokenizer的结果将所有字符偏移量（即开始）设置为0的标记

如何获得阿拉伯文单词段以及结果核心标签的字符偏移量

从

ArabicTokenizer

到0的字符偏移量是由于一个错误造成的，该错误现在已在中修复。该修复程序将包含在下一个CoreNLP版本中（3.5.3，计划于2015年10月中旬发布）。使用此修复程序，从

tokenize

返回的

CoreLabel

应使用正确的索引注释到原始源文本中，如中所示

目前，

ArabicSegmenter

仍然是一个字符串到字符串的接口，这意味着可能没有一种干净的方法从中检索原始字符偏移量