Python bootstrap估计方差减小原因的数学解释

Python bootstrap估计方差减小原因的数学解释,python,numpy,machine-learning,data-science,sampling,Python,Numpy,Machine Learning,Data Science,Sampling,我正在尝试摸索引导和打包(引导聚合),所以我一直在尝试进行一些实验。我加载了,并尝试使用引导方法: X = pd.read_csv("dataset.csv") true_median = np.median(X["Impressions"]) B = 500 errors = [] variances = [] for b in range(1, B): sample_medians = [np.median(X.sample(len(X), repla

我正在尝试摸索引导打包(引导聚合),所以我一直在尝试进行一些实验。我加载了,并尝试使用引导方法:

X = pd.read_csv("dataset.csv")
true_median = np.median(X["Impressions"])
B = 500
    errors = []
    variances = []
    for b in range(1, B):
        sample_medians = [np.median(X.sample(len(X), replace=True)["Impressions"]) for i in range(b)]
        error = np.mean(sample_medians) - true_median
        variances.append(np.std(sample_medians) ** 2)
        errors.append(error)
然后我可视化了
错误
差异

fig, ax1 = plt.subplots()

color = 'tab:red'
ax1.set_xlabel('Number of Bootstrap Samples (B)')
ax1.set_ylabel('Bootstrap Estimate Error', color=color)
ax1.plot(errors, color=color, alpha=0.7)
ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()

color = 'tab:blue'
ax2.set_ylabel('Bootstrap Estimate Variance', color=color)
ax2.plot(variances, color=color, alpha=0.7)
ax2.tick_params(axis='y', labelcolor=color)

fig.tight_layout()
plt.title("Relationship Between Bootstrap Error, Variance \nand Number of Bootstrap Iterations")
plt.show()
这是绘图的输出:

您可以看到误差和方差随着
B
的增加而减小。
我试图找到某种数学证明——有没有办法推导或证明当B增加时,bootstrap估计的方差会减小?

我想你看到的是中心极限定理。循环开始时,替换总体的样本数很小,中间值的平均值(您称之为该误差)不能代表达到真实的总体中值。当生成更多样本时,中间值的平均值渐近收敛到真中值。当收敛到真均值时,该分布的样本不足以产生较大的方差,并且也达到收敛


这澄清了吗?如果没有,请详细说明在绘制它们时您希望看到什么,我们可以讨论如何到达那里。

如果有人能告诉我这个问题的确切“过于宽泛”之处,我将不胜感激。所以我可以用更具体的方式重新表述它。我本质上是在问“为什么当B增加时,bootstrap估计的方差会减小?”谢谢!这通常是有道理的。我是在随机森林等模型的偏差-方差权衡的背景下研究这一点的,这些模型应该利用集合模型(由于过度拟合,每个模型的偏差都很低)一起平均(以减少方差)。因此,如果我们继续增加
B
,这意味着我们的模型预测的方差也会减少?随机森林的本质是让有偏见的树为他们的个人选择投票。通过一起查看所有树的决策,bagging分类器决定样本的最终类别。随着树木数量的增加,方差减小,这是随机森林的关键强度之一。然而,增加超过某个阈值的树(取决于问题),因此收集和拟合模型的计算工作产生的收益会越来越小。单独的树是高度偏颇的(不像你所说的),因为它们是基于仅选择的特征(不是选择的样本)来拟合的:HM.:<代码>如果我们考虑完全生长的决策树(即未修剪的决策树),则它具有高的方差和低的偏倚。套袋和随机森林使用这些高方差模型并将其聚合,以减少方差,从而提高预测精度。。随机森林的全部意义不就是允许单个决策树模型对选定的特征进行过度拟合(低偏差高方差),然后将它们聚合在一起以减少它们的方差吗?另外,问题27——正确答案是D,其中包括
每棵树都具有高方差和低偏差
?感谢您提供参考。正如您从您发布的stackexchange问题的答案中所看到的。由于特征的随机选择和每个树的样本的随机选择,树是有偏差的。它比未运行的决策树更有偏向性。你可以在第619页找到关于随机森林中的偏差。由于我们偏离了讨论的主题,如果我已经用我的答案满意地回答了你的问题,请接受并打开一个新的线程。很高兴继续。回头见。