Machine learning 如何区分真正的改进和随机噪声？_Machine Learning_Machine Translation

Machine learning 如何区分真正的改进和随机噪声？

machine-learning

Machine learning 如何区分真正的改进和随机噪声？,machine-learning,machine-translation,Machine Learning,Machine Translation,我正在用摩西建立一个自动翻译。为了提高性能，我使用对数线性权重优化。这项技术有一个随机成分，它可以稍微影响最终结果（但我不知道确切的影响程度）假设模型的当前性能为25 BLEU 假设现在我修改了语言模型（例如，更改平滑），得到了26 BLEU的性能我的问题是：我如何知道改进是因为修改，还是仅仅是随机分量的噪声？这就是统计的全部内容。您基本上可以做以下两件事中的一件（从基本解决方案集，当然还有更多更高级的解决方案）：试着测量/建模/量化随机性的影响，如果你知道是什么导致了它，你也许能够实际

我正在用摩西建立一个自动翻译。为了提高性能，我使用对数线性权重优化。这项技术有一个随机成分，它可以稍微影响最终结果（但我不知道确切的影响程度）

假设模型的当前性能为25 BLEU

假设现在我修改了语言模型（例如，更改平滑），得到了26 BLEU的性能

我的问题是：我如何知道改进是因为修改，还是仅仅是随机分量的噪声？

这就是统计的全部内容。您基本上可以做以下两件事中的一件（从基本解决方案集，当然还有更多更高级的解决方案）：

试着测量/建模/量化随机性的影响，如果你知道是什么导致了它，你也许能够实际计算出它对你的模型的影响程度。如果无法使用分析解决方案，则始终可以使用相同的数据/设置训练20个模型，收集结果并估计噪声分布。一旦你有了这一点，你可以进行统计测试，以检查改善是否具有统计意义（例如，通过方差分析测试）
更简单的方法（但在数据/时间方面更昂贵）是简单地通过平均来减少方差。简言之，与其训练一个模型（或评估一次模型），因为该模型具有难以确定的噪声分量，不如多次训练，10次，20次，然后平均结果。这样可以减少分析结果的差异。这可以（也应该）与前面的选项结合使用——因为现在每次运行都有20个结果，因此您可以再次使用统计测试来查看这些结果是否显著不同

这几乎就是统计的全部内容。您基本上可以做以下两件事中的一件（从基本解决方案集，当然还有更多更高级的解决方案）：

试着测量/建模/量化随机性的影响，如果你知道是什么导致了它，你也许能够实际计算出它对你的模型的影响程度。如果无法使用分析解决方案，则始终可以使用相同的数据/设置训练20个模型，收集结果并估计噪声分布。一旦你有了这一点，你可以进行统计测试，以检查改善是否具有统计意义（例如，通过方差分析测试）
更简单的方法（但在数据/时间方面更昂贵）是简单地通过平均来减少方差。简言之，与其训练一个模型（或评估一次模型），因为该模型具有难以确定的噪声分量，不如多次训练，10次，20次，然后平均结果。这样可以减少分析结果的差异。这可以（也应该）与前面的选项结合使用——因为现在每次运行都有20个结果，因此您可以再次使用统计测试来查看这些结果是否显著不同

从尝试引导重新采样从尝试引导重新采样