Python 含噪数据集的多项式回归

Python 含噪数据集的多项式回归,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我想知道我是否能在一个问题上得到一些帮助 我正在为我以前的一个实验室创建一个工具,它使用来自一台基于物理的机器(大量噪音)的数据,结果是简单的x,y坐标。我想确定数据集的局部最大值,但是,由于集合中存在大量噪声,因此不能仅检查点之间的斜率来确定峰值 为了解决这个问题,我考虑使用多项式回归来稍微“平滑”数据集,然后从结果模型中确定局部最大值 我已经浏览了这个链接 但是,它只告诉您如何创建紧密贴合的模型。它不会告诉你是否有一个综合指标来衡量哪一个是最好的模型。我应该通过卡方检验吗?或者是否有其他更好

我想知道我是否能在一个问题上得到一些帮助

我正在为我以前的一个实验室创建一个工具,它使用来自一台基于物理的机器(大量噪音)的数据,结果是简单的x,y坐标。我想确定数据集的局部最大值,但是,由于集合中存在大量噪声,因此不能仅检查点之间的斜率来确定峰值

为了解决这个问题,我考虑使用多项式回归来稍微“平滑”数据集,然后从结果模型中确定局部最大值

我已经浏览了这个链接 但是,它只告诉您如何创建紧密贴合的模型。它不会告诉你是否有一个综合指标来衡量哪一个是最好的模型。我应该通过卡方检验吗?或者是否有其他更好的衡量标准或集成到scikit学习工具包中


提前感谢

Link procided本质上向您展示了如何在多项式特征的基础上构建岭回归。因此,这不是一个“紧配合”,因为您可以通过正则化(alpha参数)-优先于参数来控制它。现在,你所说的“最佳模型”是什么意思?有无限多个可能的标准可以作为最佳回归,每个标准都通过不同的标准进行测试。你需要回答自己——你感兴趣的衡量标准是什么。是否应该是平滑度和紧密度之间的某种“黄金比例”?或者你想要一个最平滑的模型,它可以最小化一些误差度量(到点的均方距离?)?还有一种方法是测试它捕获底层过程的能力——通过某种典型的验证(如交叉验证等),在数据子集上重复构建模型,并检查保留部分的错误。有很多可能的(而且完全有效的!)方法——一切都取决于你想要回答的确切问题。不幸的是,“什么是最好的模式”不是一个好问题

我建议用最大熵法来解决这个问题。