有没有一种方法可以将StanfordCoreNLP管道原始文本和令牌列表作为输入?

有没有一种方法可以将StanfordCoreNLP管道原始文本和令牌列表作为输入?,nlp,stanford-nlp,pipeline,tokenize,arabic,Nlp,Stanford Nlp,Pipeline,Tokenize,Arabic,我正在用阿拉伯语做一些自然语言处理。由于我同时使用了两个不同的NLP工具,我希望能够将原始文本提供给StanfordCoreNLP管道,但是提供我自己的标记列表,而不是让它进行标记化。有办法吗 最好的做法是将您的令牌与空白合并,然后使用-tokenize.whitespace选项 例如,如果我有原始文本:这是一个句子。,我将它标记为(“This”、“is”、“a”、“句子”、“)我会将它合并回一个字符串“这是一个句子。”并使用标记化.whitespace选项,该选项只会在空格上拆分。有意义,但我

我正在用阿拉伯语做一些自然语言处理。由于我同时使用了两个不同的NLP工具,我希望能够将原始文本提供给StanfordCoreNLP管道,但是提供我自己的标记列表,而不是让它进行标记化。有办法吗

最好的做法是将您的令牌与空白合并,然后使用
-tokenize.whitespace
选项


例如,如果我有原始文本:
这是一个句子。
,我将它标记为
(“This”、“is”、“a”、“句子”、“)
我会将它合并回一个字符串
“这是一个句子。”
并使用
标记化.whitespace
选项,该选项只会在空格上拆分。

有意义,但我有一个顾虑。我需要另一个工具来做一些广泛的形态学分析和基本短语组块,斯坦福没有提供,所以我需要使用它的标记化方案。然而,我需要Stanford做的一件重要的事情是给我每个单词在原始文本中的开头和结尾索引——因此我需要在每个工具使用的标记列表之间精确对齐。将我的标记与空白合并可以做到这一点,但它会抵消每个单词的索引。