Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/wpf/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 如何从对齐工具fast_align解释对齐分数?_Nlp_Alignment_Language Translation_Machine Translation - Fatal编程技术网

Nlp 如何从对齐工具fast_align解释对齐分数?

Nlp 如何从对齐工具fast_align解释对齐分数?,nlp,alignment,language-translation,machine-translation,Nlp,Alignment,Language Translation,Machine Translation,我正在使用对齐工具包fast_align:,对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的一些句子排列得很好,而另一些句子排列得不好,但到目前为止,我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗?FastAlign是的一个实现,分数是该模型估计的概率。模型的细节在中得到了很好的解释 分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计: 源语言对和目标语言对(几乎所有)相互翻译的概率 给定

我正在使用对齐工具包fast_align:,对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的一些句子排列得很好,而另一些句子排列得不好,但到目前为止,我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗?

FastAlign是的一个实现,分数是该模型估计的概率。模型的细节在中得到了很好的解释

分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计:

  • 源语言对和目标语言对(几乎所有)相互翻译的概率
  • 给定单词到单词的翻译概率,实现最佳对齐
  • 然后,分数是词到词翻译概率与算法收敛到的对齐度的乘积。因此,理论上,这应该与句子的平行程度相关,但是有很多方法可以打破这种关系。例如,稀有词具有不可靠的概率估计。另一个问题可能是某些单词(如“of”)可能是其他语言中单个单词的多单词表达式的一部分,这也会扭曲概率估计。因此,概率不可信也就不足为奇了


    如果您的目标是过滤平行语料库并删除对齐不正确的句子对,我会推荐其他方法。例如,您可以像在中一样使用多语言BERT,其中它们使用中心向量进行跨语言检索。或者只是谷歌“并行语料库过滤”。

    谢谢,这很有帮助。这些幻灯片很棒,而且资源也有利于进一步的研究。我认为我测试的数据集可能太小了。我只试着用大约200个句子开始。