Python 高斯过程预测置信区间奇异性_Python_Scikit Learn_Confidence Interval_Uncertainty_Gaussian Process

Python 高斯过程预测置信区间奇异性

python scikit-learn

Python 高斯过程预测置信区间奇异性,python,scikit-learn,confidence-interval,uncertainty,gaussian-process,Python,Scikit Learn,Confidence Interval,Uncertainty,Gaussian Process,我正在做一些粒子物理分析，希望有人能给我一些关于高斯过程拟合的见解，我正试图用它来推断一些数据我有一些不确定的数据，我正在输入scikit学习高斯过程算法。我通过“nugget”参数包含不确定性（我的实现匹配其中我的“corr”是平方指数，“nugget”值设置为（dy/y）**2）。主要关注点是：我在分布边缘的绝对不确定度较低（但分数不确定度较高），这导致预测的置信区间比我在该区域的预期要大得多（见下图）不确定性表现为这种方式的原因是我正在处理粒子物理数据，这是一个不同特征（x）值观察到

我正在做一些粒子物理分析，希望有人能给我一些关于高斯过程拟合的见解，我正试图用它来推断一些数据

我有一些不确定的数据，我正在输入scikit学习高斯过程算法。我通过“nugget”参数包含不确定性（我的实现匹配其中我的“corr”是平方指数，“nugget”值设置为（dy/y）**2）。主要关注点是：我在分布边缘的绝对不确定度较低（但分数不确定度较高），这导致预测的置信区间比我在该区域的预期要大得多（见下图）

不确定性表现为这种方式的原因是我正在处理粒子物理数据，这是一个不同特征（x）值观察到的粒子计数直方图。这些计数遵循泊松分布，因此不确定度（标准偏差）为sqrt（N）。因此，分布的高计数区域具有较高的绝对不确定度，但分数不确定度较低，反之亦然

我知道，正如我提到的，当使用平方指数核时，这个函数中的“nugget”参数的值应该是（分数不确定性）**2。因此，如果预测的不确定性是基于输入的分数不确定性，那么它的边缘可能会很大。但我不完全理解这在数学中是如何发挥作用的，而且预测的不确定性的大小比边缘上的数据点不确定性大得多，这在我看来是错误的

有人能对这里发生的事情发表评论吗？这是否符合预期？若然，原因为何？任何关于这个主题的想法或参考资料都将不胜感激

我给你留下几个重要的警告：

1）分布边缘有几个计数为零的数据点。这使“金块”的分数不确定性出现了一个转折，因为（sqrt（0）/0）**2不是一个非常令人满意的值。我在这里做了一个调整，只是将这些点的熔核值设置为1.0，这对应于你得到的值，如果这是一个计数1。我相信这是一个常见的近似值，它确实会影响手头的问题，但我认为它不会从根本上改变这个问题

2）我正在处理的数据实际上是一个2d直方图（即，一个自变量（比如x），另一个（y）和作为因变量（z）的计数）。图中显示的是2d数据和预测的1d切片（即z与x在小范围y上的积分）。我不认为这真的会影响手头的问题，但我想我应该提一下。

从你的演示中，我怀疑这个行为是正确的，尽管我还没有完成数学。我的直觉告诉我：不要做统一的直方图。当您离开配送中心时，使箱子尺寸变大。这将增加您的值并减少分数错误