Nlp 当使用像fast_align这样的单词对齐工具时,更多的句子是否意味着更准确?

Nlp 当使用像fast_align这样的单词对齐工具时,更多的句子是否意味着更准确?,nlp,translation,machine-translation,Nlp,Translation,Machine Translation,我正在使用fast_align在1000个德语句子和1000个英语翻译句子之间进行单词对齐。到目前为止,质量不太好 在这个过程中加入更多的句子是否有助于快速对齐以便更准确?假设我用100k对齐的句子对获取一些OPUS数据,然后在其末尾添加1000个句子,并将其输入fast_align。那有帮助吗?我似乎找不到任何关于这是否有意义的信息。[免责声明:我对对齐几乎一无所知,并且没有使用fast\u align。] 对 您可以向自己证明这一点,也可以通过从数据集中删除数据,以更低的比例尝试,绘制精度/

我正在使用fast_align在1000个德语句子和1000个英语翻译句子之间进行单词对齐。到目前为止,质量不太好


在这个过程中加入更多的句子是否有助于快速对齐以便更准确?假设我用100k对齐的句子对获取一些OPUS数据,然后在其末尾添加1000个句子,并将其输入fast_align。那有帮助吗?我似乎找不到任何关于这是否有意义的信息。

[免责声明:我对对齐几乎一无所知,并且没有使用fast\u align。]

您可以向自己证明这一点,也可以通过从数据集中删除数据,以更低的比例尝试,绘制精度/比例曲线

也就是说,1000已经低得离谱了,就这些目的而言,1000≈≈ 0,我不希望它工作

更理想的是尝试10公里、100公里和1米。与其他人的结果更具可比性的是一些标准语料库,如维基百科或研究研讨会的数据


添加与对您很重要的数据非常不同的数据可能会产生不同的结果,但在这种情况下,添加更多的数据几乎不会有什么坏处。如果您提到一个特定的域、数据集或目标,我们可以提供更多的建议。

您拥有的数据集是什么,域和内容类型是什么,您的目标是什么?