Statistics 用于差距统计的模拟参考数据集的建议数量

Statistics 用于差距统计的模拟参考数据集的建议数量,statistics,cluster-analysis,montecarlo,Statistics,Cluster Analysis,Montecarlo,计算Tibshirani的差距统计时,参考分布中是否有推荐数量的模拟数据集(B)?B=50?B=100?B=500?B=1000?如果有,有什么好的参考资料提到它吗 如果我们回到最初的出版物[],作者定义了“1-标准误差”规则,以确定最佳聚类数,即最小的k值 其中s_k是MC模拟校正的标准误差 对于B,从参考分布中提取MC样品的副本 在后一个等式中,平方根项允许您估计由于MC样本数量而导致的标准偏差的校正,我们显然有 例如,对于B=10,由于MC采样不确定性,标准偏差s_k增加5%。如果选

计算Tibshirani的差距统计时,参考分布中是否有推荐数量的模拟数据集(B)?B=50?B=100?B=500?B=1000?如果有,有什么好的参考资料提到它吗

如果我们回到最初的出版物[],作者定义了“1-标准误差”规则,以确定最佳聚类数,即最小的k值

其中s_k是MC模拟校正的标准误差

对于B,从参考分布中提取MC样品的副本

在后一个等式中,平方根项允许您估计由于MC样本数量而导致的标准偏差的校正,我们显然有

例如,对于
B=10
,由于MC采样不确定性,标准偏差s_k增加5%。如果选择
B=100
,则增加0.5%

我想在实际应用中,
B=10
可能足以满足许多应用。但这需要根据您的实际数据及其基本聚类结构(例如,分离良好的聚类数与分离较少的聚类数),对差距统计及其标准偏差进行一些试错评估

一些有用的参考资料(无特定顺序)