Nlp 如何从对齐工具fast_align解释对齐分数?
我正在使用对齐工具包fast_align:,对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的一些句子排列得很好,而另一些句子排列得不好,但到目前为止,我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗?FastAlign是的一个实现,分数是该模型估计的概率。模型的细节在中得到了很好的解释 分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计:Nlp 如何从对齐工具fast_align解释对齐分数?,nlp,alignment,language-translation,machine-translation,Nlp,Alignment,Language Translation,Machine Translation,我正在使用对齐工具包fast_align:,对平行语料库进行逐字对齐。有一个打印对齐分数的选项--我如何解释这个分数?分数是否衡量平行句子之间的对齐程度?我知道语料库中的一些句子排列得很好,而另一些句子排列得不好,但到目前为止,我看不到分数与它们排列得有多好之间的相关性。我应该调整句子中的字数吗?FastAlign是的一个实现,分数是该模型估计的概率。模型的细节在中得到了很好的解释 分数是给定目标句子单词和对齐的源句子的概率。该算法迭代估计: 源语言对和目标语言对(几乎所有)相互翻译的概率 给定
如果您的目标是过滤平行语料库并删除对齐不正确的句子对,我会推荐其他方法。例如,您可以像在中一样使用多语言BERT,其中它们使用中心向量进行跨语言检索。或者只是谷歌“并行语料库过滤”。谢谢,这很有帮助。这些幻灯片很棒,而且资源也有利于进一步的研究。我认为我测试的数据集可能太小了。我只试着用大约200个句子开始。