Nlp 如何从对齐工具fast_align解释对齐分数？_Nlp_Alignment_Language Translation_Machine Translation

Nlp 如何从对齐工具fast_align解释对齐分数？

nlp

Nlp 如何从对齐工具fast_align解释对齐分数？,nlp,alignment,language-translation,machine-translation,Nlp,Alignment,Language Translation,Machine Translation,我正在使用对齐工具包fast_align:，对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数？分数是否衡量平行句子之间的对齐程度？我知道语料库中的一些句子排列得很好，而另一些句子排列得不好，但到目前为止，我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗？FastAlign是的一个实现，分数是该模型估计的概率。模型的细节在中得到了很好的解释分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计：源语言对和目标语言对（几乎所有）相互翻译的概率给定

我正在使用对齐工具包fast_align:，对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数？分数是否衡量平行句子之间的对齐程度？我知道语料库中的一些句子排列得很好，而另一些句子排列得不好，但到目前为止，我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗？

FastAlign是的一个实现，分数是该模型估计的概率。模型的细节在中得到了很好的解释

分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计：

源语言对和目标语言对（几乎所有）相互翻译的概率

给定单词到单词的翻译概率，实现最佳对齐

然后，分数是词到词翻译概率与算法收敛到的对齐度的乘积。因此，理论上，这应该与句子的平行程度相关，但是有很多方法可以打破这种关系。例如，稀有词具有不可靠的概率估计。另一个问题可能是某些单词（如“of”）可能是其他语言中单个单词的多单词表达式的一部分，这也会扭曲概率估计。因此，概率不可信也就不足为奇了

如果您的目标是过滤平行语料库并删除对齐不正确的句子对，我会推荐其他方法。例如，您可以像在中一样使用多语言BERT，其中它们使用中心向量进行跨语言检索。或者只是谷歌“并行语料库过滤”。

谢谢，这很有帮助。这些幻灯片很棒，而且资源也有利于进一步的研究。我认为我测试的数据集可能太小了。我只试着用大约200个句子开始。