Nlp 实时机器翻译的最佳评价方法？_Nlp_Precision Recall_Machine Translation

Nlp 实时机器翻译的最佳评价方法？

nlp

Nlp 实时机器翻译的最佳评价方法？,nlp,precision-recall,machine-translation,Nlp,Precision Recall,Machine Translation,我知道有许多不同的方法，如BLEU、NIST、METEOR等。它们都有各自的优缺点，并且它们的有效性因语料库而异。我对实时翻译感兴趣，这样两个人就可以通过一次输入两个句子并立即翻译来进行对话这算什么样的语料库？文本是否会被认为太短，无法用大多数传统方法进行适当的评估？说话人不断切换的事实是否会使上下文变得更加困难？您所要求的，属于置信度估计的领域，现在（在机器翻译（MT）社区中）更被称为质量估计，即“在不访问参考翻译的情况下为机器翻译输出分配分数” 对于MT评估（使用BLEU、NIST或MET

我知道有许多不同的方法，如BLEU、NIST、METEOR等。它们都有各自的优缺点，并且它们的有效性因语料库而异。我对实时翻译感兴趣，这样两个人就可以通过一次输入两个句子并立即翻译来进行对话

这算什么样的语料库？文本是否会被认为太短，无法用大多数传统方法进行适当的评估？说话人不断切换的事实是否会使上下文变得更加困难？

您所要求的，属于置信度估计的领域，现在（在机器翻译（MT）社区中）更被称为质量估计，即“在不访问参考翻译的情况下为机器翻译输出分配分数”

对于MT评估（使用BLEU、NIST或METEOR），您需要：

假设翻译（机器翻译输出）

参考翻译（来自测试集）

在您的情况下（实时翻译），您没有（2）。因此，您必须根据源语句和假设翻译的特征，以及您对机器翻译过程的了解，评估系统的性能

具有17个功能的基线系统如所述：

特科，L.，图尔奇，M.，坎塞达，N.，戴梅特曼，M.，和克里斯蒂亚尼尼，N.（2009年b）。估计机器翻译系统的句子级质量。欧洲机器翻译协会第十三届会议（第28-37页）
你可以找到

质量评价是一个非常活跃的研究课题。最新的进展可以在WMT会议的网站上看到。寻找质量评估共享任务，例如，您的语料库可能是聊天或问答。如果你有很多句子建议，那么你可以试试这是一种句子层次上的向量空间模型方法，因此你不必学习特定于语言的系统，只要句子不太短，说话人之间的切换应该不会有问题。