微型批处理Python

微型批处理Python,python,machine-learning,scikit-learn,cluster-computing,Python,Machine Learning,Scikit Learn,Cluster Computing,我正在使用scikitlearn中的函数MiniBatchKMeans()。好, 在其文件中有: 批量大小:int,可选,默认值:100 小批量的大小 初始大小:int,可选,默认值:3*批量大小 为加速初始化而随机采样的样本数(有时以牺牲准确性为代价):唯一的算法是通过对数据的随机子集运行批处理KMeans来初始化的。这需要大于n_集群 我不太明白,因为小批量的最终维度似乎是3*batch\u size,而不是batch\u size参数指定的维度 我有什么误解吗。如果是这样,有人可以解释这两

我正在使用scikitlearn中的函数MiniBatchKMeans()。好, 在其文件中有:

批量大小:int,可选,默认值:100 小批量的大小

初始大小:int,可选,默认值:3*批量大小 为加速初始化而随机采样的样本数(有时以牺牲准确性为代价):唯一的算法是通过对数据的随机子集运行批处理KMeans来初始化的。这需要大于n_集群

我不太明白,因为小批量的最终维度似乎是3*batch\u size,而不是batch\u size参数指定的维度

我有什么误解吗。如果是这样,有人可以解释这两个论点。我是对的,为什么会有这两个论点,因为它们似乎是多余的


谢谢

批次大小由
批次大小
周期定义。此外,您还可以定义
init_size
,它是为初始化过程而采集的样本的大小,默认情况下它是3*
batch_size
。您可以简单地设置
bath_size=100
init_size=10
,然后使用10个样本执行初始化(kmeans不是全局收敛的,在初始化阶段有许多技术可以处理)然后,在算法执行期间将使用批处理100。

您的意思是在初始化过程中选择初始质心吗?是的。默认情况下,在该步骤中使用k-means++启发式。