Python 高斯过程预测置信区间奇异性

Python 高斯过程预测置信区间奇异性,python,scikit-learn,confidence-interval,uncertainty,gaussian-process,Python,Scikit Learn,Confidence Interval,Uncertainty,Gaussian Process,我正在做一些粒子物理分析,希望有人能给我一些关于高斯过程拟合的见解,我正试图用它来推断一些数据 我有一些不确定的数据,我正在输入scikit学习高斯过程算法。我通过“nugget”参数包含不确定性(我的实现匹配其中我的“corr”是平方指数,“nugget”值设置为(dy/y)**2)。主要关注点是:我在分布边缘的绝对不确定度较低(但分数不确定度较高),这导致预测的置信区间比我在该区域的预期要大得多(见下图) 不确定性表现为这种方式的原因是我正在处理粒子物理数据,这是一个不同特征(x)值观察到

我正在做一些粒子物理分析,希望有人能给我一些关于高斯过程拟合的见解,我正试图用它来推断一些数据

我有一些不确定的数据,我正在输入scikit学习高斯过程算法。我通过“nugget”参数包含不确定性(我的实现匹配其中我的“corr”是平方指数,“nugget”值设置为(dy/y)**2)。主要关注点是:我在分布边缘的绝对不确定度较低(但分数不确定度较高),这导致预测的置信区间比我在该区域的预期要大得多(见下图)

不确定性表现为这种方式的原因是我正在处理粒子物理数据,这是一个不同特征(x)值观察到的粒子计数直方图。这些计数遵循泊松分布,因此不确定度(标准偏差)为sqrt(N)。因此,分布的高计数区域具有较高的绝对不确定度,但分数不确定度较低,反之亦然

我知道,正如我提到的,当使用平方指数核时,这个函数中的“nugget”参数的值应该是(分数不确定性)**2。因此,如果预测的不确定性是基于输入的分数不确定性,那么它的边缘可能会很大。但我不完全理解这在数学中是如何发挥作用的,而且预测的不确定性的大小比边缘上的数据点不确定性大得多,这在我看来是错误的

有人能对这里发生的事情发表评论吗?这是否符合预期?若然,原因为何?任何关于这个主题的想法或参考资料都将不胜感激

我给你留下几个重要的警告:

1) 分布边缘有几个计数为零的数据点。这使“金块”的分数不确定性出现了一个转折,因为(sqrt(0)/0)**2不是一个非常令人满意的值。我在这里做了一个调整,只是将这些点的熔核值设置为1.0,这对应于你得到的值,如果这是一个计数1。我相信这是一个常见的近似值,它确实会影响手头的问题,但我认为它不会从根本上改变这个问题


2) 我正在处理的数据实际上是一个2d直方图(即,一个自变量(比如x),另一个(y)和作为因变量(z)的计数)。图中显示的是2d数据和预测的1d切片(即z与x在小范围y上的积分)。我不认为这真的会影响手头的问题,但我想我应该提一下。

从你的演示中,我怀疑这个行为是正确的,尽管我还没有完成数学。我的直觉告诉我:不要做统一的直方图。当您离开配送中心时,使箱子尺寸变大。这将增加您的值并减少分数错误