Machine learning 如何区分真正的改进和随机噪声?

Machine learning 如何区分真正的改进和随机噪声?,machine-learning,machine-translation,Machine Learning,Machine Translation,我正在用摩西建立一个自动翻译。为了提高性能,我使用对数线性权重优化。这项技术有一个随机成分,它可以稍微影响最终结果(但我不知道确切的影响程度) 假设模型的当前性能为25 BLEU 假设现在我修改了语言模型(例如,更改平滑),得到了26 BLEU的性能 我的问题是:我如何知道改进是因为修改,还是仅仅是随机分量的噪声?这就是统计的全部内容。您基本上可以做以下两件事中的一件(从基本解决方案集,当然还有更多更高级的解决方案): 试着测量/建模/量化随机性的影响,如果你知道是什么导致了它,你也许能够实际

我正在用摩西建立一个自动翻译。为了提高性能,我使用对数线性权重优化。这项技术有一个随机成分,它可以稍微影响最终结果(但我不知道确切的影响程度)

假设模型的当前性能为25 BLEU

假设现在我修改了语言模型(例如,更改平滑),得到了26 BLEU的性能


我的问题是:我如何知道改进是因为修改,还是仅仅是随机分量的噪声?

这就是统计的全部内容。您基本上可以做以下两件事中的一件(从基本解决方案集,当然还有更多更高级的解决方案):

  • 试着测量/建模/量化随机性的影响,如果你知道是什么导致了它,你也许能够实际计算出它对你的模型的影响程度。如果无法使用分析解决方案,则始终可以使用相同的数据/设置训练20个模型,收集结果并估计噪声分布。一旦你有了这一点,你可以进行统计测试,以检查改善是否具有统计意义(例如,通过方差分析测试)

  • 更简单的方法(但在数据/时间方面更昂贵)是简单地通过平均来减少方差。简言之,与其训练一个模型(或评估一次模型),因为该模型具有难以确定的噪声分量,不如多次训练,10次,20次,然后平均结果。这样可以减少分析结果的差异。这可以(也应该)与前面的选项结合使用——因为现在每次运行都有20个结果,因此您可以再次使用统计测试来查看这些结果是否显著不同


这几乎就是统计的全部内容。您基本上可以做以下两件事中的一件(从基本解决方案集,当然还有更多更高级的解决方案):

  • 试着测量/建模/量化随机性的影响,如果你知道是什么导致了它,你也许能够实际计算出它对你的模型的影响程度。如果无法使用分析解决方案,则始终可以使用相同的数据/设置训练20个模型,收集结果并估计噪声分布。一旦你有了这一点,你可以进行统计测试,以检查改善是否具有统计意义(例如,通过方差分析测试)

  • 更简单的方法(但在数据/时间方面更昂贵)是简单地通过平均来减少方差。简言之,与其训练一个模型(或评估一次模型),因为该模型具有难以确定的噪声分量,不如多次训练,10次,20次,然后平均结果。这样可以减少分析结果的差异。这可以(也应该)与前面的选项结合使用——因为现在每次运行都有20个结果,因此您可以再次使用统计测试来查看这些结果是否显著不同


从尝试引导重新采样从尝试引导重新采样