Nlp 如何在Stanford Parser的索引依赖中获得几个句子中每个标记的正确位置？_Nlp_Stanford Nlp

Nlp 如何在Stanford Parser的索引依赖中获得几个句子中每个标记的正确位置？

nlp stanford-nlp

Nlp 如何在Stanford Parser的索引依赖中获得几个句子中每个标记的正确位置？,nlp,stanford-nlp,Nlp,Stanford Nlp,通常我可以通过拆分句子和标记来完成，但有一个例子： “士兵来了……我……你必须走了。” 标记那里/从前 comes/VBZ 数字/DT 士兵/NN .../: I./NNP ./. ./ 你/PRP 必须/医学博士 go/VB ./. 解析（根（S）（NP（在此之前））（副总裁（VBZ来了）（NP）（NP（DT）（NN士兵）） (: ...) (NP(NNP I)() （……））（根（S）（NP（PRP you））（副总裁（总经理）（副总裁（VB go）））（……））

通常我可以通过拆分句子和标记来完成，但有一个例子：

“士兵来了……我……你必须走了。”

标记

那里/从前 comes/VBZ 数字/DT 士兵/NN .../: I./NNP ./. ./

你/PRP 必须/医学博士 go/VB ./. 解析

（根（S）（NP（在此之前））（副总裁（VBZ来了）（NP）（NP（DT）（NN士兵）） (: ...) (NP(NNP I)() （……））

（根（S）（NP（PRP you））（副总裁（总经理）（副总裁（VB go）））（……））

普遍依赖

expl（comes-2，There-1）根（根-0，根-2） det（士兵-4，士兵-3）多布吉（2号士兵，4号士兵）副（士兵-4，I-6）

nsubj（go-3，you-1）辅助（go-3、must-2）根（根-0，根-3）

这句话不是停在第一句“…”，而是停在第二句。因此，在这种情况下，轻松地拆分句子和计算代币的数量是没有帮助的。（因为它会认为这是三句话。）

有没有其他方法可以让我知道哪个解析树属于令牌？或者解析树是示例的哪个子字符串？或者直接在本例中标记的位置（三个句子）？

斯坦福似乎将第二个省略号解释为句子边界。我不太清楚为什么这个省略号会被视为一个句点，但第一个句点的解释是正确的

您可以尝试的一种方法是编写一个脚本来手动标记省略号，即将它们与前面的单词分开。例如，新标记的句子将是“士兵来了……我……你必须走。”另一种方法是用unicode省略号字符替换三个句号