Nlp 实时机器翻译的最佳评价方法?

Nlp 实时机器翻译的最佳评价方法?,nlp,precision-recall,machine-translation,Nlp,Precision Recall,Machine Translation,我知道有许多不同的方法,如BLEU、NIST、METEOR等。它们都有各自的优缺点,并且它们的有效性因语料库而异。我对实时翻译感兴趣,这样两个人就可以通过一次输入两个句子并立即翻译来进行对话 这算什么样的语料库?文本是否会被认为太短,无法用大多数传统方法进行适当的评估?说话人不断切换的事实是否会使上下文变得更加困难?您所要求的,属于置信度估计的领域,现在(在机器翻译(MT)社区中)更被称为质量估计,即“在不访问参考翻译的情况下为机器翻译输出分配分数” 对于MT评估(使用BLEU、NIST或MET

我知道有许多不同的方法,如BLEU、NIST、METEOR等。它们都有各自的优缺点,并且它们的有效性因语料库而异。我对实时翻译感兴趣,这样两个人就可以通过一次输入两个句子并立即翻译来进行对话


这算什么样的语料库?文本是否会被认为太短,无法用大多数传统方法进行适当的评估?说话人不断切换的事实是否会使上下文变得更加困难?

您所要求的,属于置信度估计的领域,现在(在机器翻译(MT)社区中)更被称为质量估计,即“在不访问参考翻译的情况下为机器翻译输出分配分数”

对于MT评估(使用BLEU、NIST或METEOR),您需要:

  • 假设翻译(机器翻译输出)
  • 参考翻译(来自测试集)
  • 在您的情况下(实时翻译),您没有(2)。因此,您必须根据源语句和假设翻译的特征,以及您对机器翻译过程的了解,评估系统的性能

    具有17个功能的基线系统如所述:

    • 特科,L.,图尔奇,M.,坎塞达,N.,戴梅特曼,M.,和克里斯蒂亚尼尼,N.(2009年b)。估计机器翻译系统的句子级质量。欧洲机器翻译协会第十三届会议(第28-37页)
    • 你可以找到

    质量评价是一个非常活跃的研究课题。最新的进展可以在WMT会议的网站上看到。寻找质量评估共享任务,例如,您的语料库可能是聊天或问答。 如果你有很多句子建议,那么你可以试试 这是一种句子层次上的向量空间模型方法,因此你不必学习特定于语言的系统,只要句子不太短,说话人之间的切换应该不会有问题。