Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/289.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/.htaccess/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将数据集拟合为正态分布的混合_Python_Scipy_Statistics_Statsmodels_Scipy.stats - Fatal编程技术网

Python 将数据集拟合为正态分布的混合

Python 将数据集拟合为正态分布的混合,python,scipy,statistics,statsmodels,scipy.stats,Python,Scipy,Statistics,Statsmodels,Scipy.stats,在我的应用程序中,输入数据集通常来自高斯分布。但是,有时它是多模态的,在这些情况下,我想将数据建模为来自多个高斯分布的数据的混合 现在,我想得到许多基本分布的平均值和sigma的估计值 我找不到这样做的方法 我想到的一种方法是将数据集拆分为多个。我将使用高斯KDE,并使用最小值作为要分割的点。但是,在基础分布重叠的地区,这将是不准确的 有没有更好的方法可以做到这一点?未来:将是一个更适合统计问题的地方 无需将数据集拆分为多个。看起来scipy已经涵盖了这一点:若你们看一下内核密度估计和双峰分布版

在我的应用程序中,输入数据集通常来自高斯分布。但是,有时它是多模态的,在这些情况下,我想将数据建模为来自多个高斯分布的数据的混合

现在,我想得到许多基本分布的平均值和sigma的估计值

我找不到这样做的方法

我想到的一种方法是将数据集拆分为多个。我将使用高斯KDE,并使用最小值作为要分割的点。但是,在基础分布重叠的地区,这将是不准确的

有没有更好的方法可以做到这一点?

未来:将是一个更适合统计问题的地方

无需将数据集拆分为多个。看起来scipy已经涵盖了这一点:若你们看一下内核密度估计和双峰分布版本

def my_kde_bandwidth(obj, fac=1./5):
    """We use Scott's Rule, multiplied by a constant factor."""
    return np.power(obj.n, -1./(obj.d+4)) * fac

from functools import partial


loc1, scale1, size1 = (-2, 1, 175)

loc2, scale2, size2 = (2, 0.2, 50)

x2 = np.concatenate([np.random.normal(loc=loc1, scale=scale1, size=size1),

                     np.random.normal(loc=loc2, scale=scale2, size=size2)])


x_eval = np.linspace(x2.min() - 1, x2.max() + 1, 500)


kde = stats.gaussian_kde(x2)

kde2 = stats.gaussian_kde(x2, bw_method='silverman')

kde3 = stats.gaussian_kde(x2, bw_method=partial(my_kde_bandwidth, fac=0.2))

kde4 = stats.gaussian_kde(x2, bw_method=partial(my_kde_bandwidth, fac=0.5))


pdf = stats.norm.pdf

bimodal_pdf = pdf(x_eval, loc=loc1, scale=scale1) * float(size1) / x2.size + \

              pdf(x_eval, loc=loc2, scale=scale2) * float(size2) / x2.size



fig = plt.figure(figsize=(8, 6))

ax = fig.add_subplot(111)



ax.plot(x2, np.zeros(x2.shape), 'b+', ms=12)

ax.plot(x_eval, kde(x_eval), 'k-', label="Scott's Rule")

ax.plot(x_eval, kde2(x_eval), 'b-', label="Silverman's Rule")

ax.plot(x_eval, kde3(x_eval), 'g-', label="Scott * 0.2")

ax.plot(x_eval, kde4(x_eval), 'c-', label="Scott * 0.5")

ax.plot(x_eval, bimodal_pdf, 'r--', label="Actual PDF")



ax.set_xlim([x_eval.min(), x_eval.max()])

ax.legend(loc=2)

ax.set_xlabel('x')

ax.set_ylabel('Density')

plt.show()


这里x2是建模数据,并且。。。也许在文档页面中有更好的解释。

在我的例子中,我想预测给定观察的loc1、scale1、loc2、scale2。我还是不知道怎么做。不确定我是否遗漏了什么。