Python 含噪数据集的多项式回归_Python_Machine Learning_Scikit Learn

Python 含噪数据集的多项式回归

python machine-learning scikit-learn

Python 含噪数据集的多项式回归,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我想知道我是否能在一个问题上得到一些帮助我正在为我以前的一个实验室创建一个工具，它使用来自一台基于物理的机器（大量噪音）的数据，结果是简单的x，y坐标。我想确定数据集的局部最大值，但是，由于集合中存在大量噪声，因此不能仅检查点之间的斜率来确定峰值为了解决这个问题，我考虑使用多项式回归来稍微“平滑”数据集，然后从结果模型中确定局部最大值我已经浏览了这个链接但是，它只告诉您如何创建紧密贴合的模型。它不会告诉你是否有一个综合指标来衡量哪一个是最好的模型。我应该通过卡方检验吗？或者是否有其他更好

我想知道我是否能在一个问题上得到一些帮助

我正在为我以前的一个实验室创建一个工具，它使用来自一台基于物理的机器（大量噪音）的数据，结果是简单的x，y坐标。我想确定数据集的局部最大值，但是，由于集合中存在大量噪声，因此不能仅检查点之间的斜率来确定峰值

为了解决这个问题，我考虑使用多项式回归来稍微“平滑”数据集，然后从结果模型中确定局部最大值

我已经浏览了这个链接但是，它只告诉您如何创建紧密贴合的模型。它不会告诉你是否有一个综合指标来衡量哪一个是最好的模型。我应该通过卡方检验吗？或者是否有其他更好的衡量标准或集成到scikit学习工具包中

提前感谢

Link procided本质上向您展示了如何在多项式特征的基础上构建岭回归。因此，这不是一个“紧配合”，因为您可以通过正则化（alpha参数）-优先于参数来控制它。现在，你所说的“最佳模型”是什么意思？有无限多个可能的标准可以作为最佳回归，每个标准都通过不同的标准进行测试。你需要回答自己——你感兴趣的衡量标准是什么。是否应该是平滑度和紧密度之间的某种“黄金比例”？或者你想要一个最平滑的模型，它可以最小化一些误差度量（到点的均方距离？）？还有一种方法是测试它捕获底层过程的能力——通过某种典型的验证（如交叉验证等），在数据子集上重复构建模型，并检查保留部分的错误。有很多可能的（而且完全有效的！）方法——一切都取决于你想要回答的确切问题。不幸的是，“什么是最好的模式”不是一个好问题

我建议用最大熵法来解决这个问题。