Statistics 用于差距统计的模拟参考数据集的建议数量_Statistics_Cluster Analysis_Montecarlo

Statistics 用于差距统计的模拟参考数据集的建议数量

statistics

Statistics 用于差距统计的模拟参考数据集的建议数量,statistics,cluster-analysis,montecarlo,Statistics,Cluster Analysis,Montecarlo,计算Tibshirani的差距统计时，参考分布中是否有推荐数量的模拟数据集（B）？B=50？B=100？B=500？B=1000？如果有，有什么好的参考资料提到它吗如果我们回到最初的出版物[]，作者定义了“1-标准误差”规则，以确定最佳聚类数，即最小的k值其中s_k是MC模拟校正的标准误差对于B，从参考分布中提取MC样品的副本在后一个等式中，平方根项允许您估计由于MC样本数量而导致的标准偏差的校正，我们显然有例如，对于B=10，由于MC采样不确定性，标准偏差s_k增加5%。如果选

计算Tibshirani的差距统计时，参考分布中是否有推荐数量的模拟数据集（B）？B=50？B=100？B=500？B=1000？如果有，有什么好的参考资料提到它吗

如果我们回到最初的出版物[]，作者定义了“1-标准误差”规则，以确定最佳聚类数，即最小的k值

其中s_k是MC模拟校正的标准误差

对于B，从参考分布中提取MC样品的副本

在后一个等式中，平方根项允许您估计由于MC样本数量而导致的标准偏差的校正，我们显然有

例如，对于

B=10

，由于MC采样不确定性，标准偏差s_k增加5%。如果选择

B=100

，则增加0.5%

我想在实际应用中，

B=10

可能足以满足许多应用。但这需要根据您的实际数据及其基本聚类结构（例如，分离良好的聚类数与分离较少的聚类数），对差距统计及其标准偏差进行一些试错评估

一些有用的参考资料（无特定顺序）