Nlp 如何在Stanford Parser的索引依赖中获得几个句子中每个标记的正确位置?

Nlp 如何在Stanford Parser的索引依赖中获得几个句子中每个标记的正确位置?,nlp,stanford-nlp,Nlp,Stanford Nlp,通常我可以通过拆分句子和标记来完成,但有一个例子: “士兵来了……我……你必须走了。” 标记 那里/从前 comes/VBZ 数字/DT 士兵/NN .../: I./NNP ./. ./ 你/PRP 必须/医学博士 go/VB ./. 解析 (根 (S) (NP(在此之前)) (副总裁(VBZ来了) (NP) (NP(DT)(NN士兵)) (: ...) (NP(NNP I)() (……)) (根 (S) (NP(PRP you)) (副总裁(总经理) (副总裁(VB go))) (……))

通常我可以通过拆分句子和标记来完成,但有一个例子:

“士兵来了……我……你必须走了。”

标记

那里/从前 comes/VBZ 数字/DT 士兵/NN .../: I./NNP ./. ./

你/PRP 必须/医学博士 go/VB ./. 解析

(根 (S) (NP(在此之前)) (副总裁(VBZ来了) (NP) (NP(DT)(NN士兵)) (: ...) (NP(NNP I)() (……))

(根 (S) (NP(PRP you)) (副总裁(总经理) (副总裁(VB go))) (……))

普遍依赖

expl(comes-2,There-1) 根(根-0,根-2) det(士兵-4,士兵-3) 多布吉(2号士兵,4号士兵) 副(士兵-4,I-6)

nsubj(go-3,you-1) 辅助(go-3、must-2) 根(根-0,根-3)

这句话不是停在第一句“…”,而是停在第二句。因此,在这种情况下,轻松地拆分句子和计算代币的数量是没有帮助的。(因为它会认为这是三句话。)


有没有其他方法可以让我知道哪个解析树属于令牌?或者解析树是示例的哪个子字符串?或者直接在本例中标记的位置(三个句子)?

斯坦福似乎将第二个省略号解释为句子边界。我不太清楚为什么这个省略号会被视为一个句点,但第一个句点的解释是正确的

您可以尝试的一种方法是编写一个脚本来手动标记省略号,即将它们与前面的单词分开。例如,新标记的句子将是“士兵来了……我……你必须走。”另一种方法是用unicode省略号字符替换三个句号