Stanford nlp Stanford Segmenter:如何生成阿拉伯语单词段以及标记/段字符起始偏移量和长度?

Stanford nlp Stanford Segmenter:如何生成阿拉伯语单词段以及标记/段字符起始偏移量和长度?,stanford-nlp,Stanford Nlp,使用Stanford阿拉伯语分词器,我们希望标记和分割阿拉伯语文本。ArabicSegmenter成功地做到了这一点,但结果并不保留令牌(CoreLabels)的原始字符偏移量。此外,ArabicSegmenter类(3.5.2)中使用的ArabicTokenizer的结果将所有字符偏移量(即开始)设置为0的标记 如何获得阿拉伯文单词段以及结果核心标签的字符偏移量 从ArabicTokenizer到0的字符偏移量是由于一个错误造成的,该错误现在已在中修复。该修复程序将包含在下一个CoreNLP版

使用Stanford阿拉伯语分词器,我们希望标记和分割阿拉伯语文本。ArabicSegmenter成功地做到了这一点,但结果并不保留令牌(CoreLabels)的原始字符偏移量。此外,ArabicSegmenter类(3.5.2)中使用的ArabicTokenizer的结果将所有字符偏移量(即开始)设置为0的标记


如何获得阿拉伯文单词段以及结果核心标签的字符偏移量

ArabicTokenizer
到0的字符偏移量是由于一个错误造成的,该错误现在已在中修复。该修复程序将包含在下一个CoreNLP版本中(3.5.3,计划于2015年10月中旬发布)。使用此修复程序,从
tokenize
返回的
CoreLabel
应使用正确的索引注释到原始源文本中,如中所示

目前,
ArabicSegmenter
仍然是一个字符串到字符串的接口,这意味着可能没有一种干净的方法从中检索原始字符偏移量