微型批处理Python
我正在使用scikitlearn中的函数MiniBatchKMeans()。好, 在其文件中有: 批量大小:int,可选,默认值:100 小批量的大小 初始大小:int,可选,默认值:3*批量大小 为加速初始化而随机采样的样本数(有时以牺牲准确性为代价):唯一的算法是通过对数据的随机子集运行批处理KMeans来初始化的。这需要大于n_集群 我不太明白,因为小批量的最终维度似乎是3*batch\u size,而不是batch\u size参数指定的维度 我有什么误解吗。如果是这样,有人可以解释这两个论点。我是对的,为什么会有这两个论点,因为它们似乎是多余的微型批处理Python,python,machine-learning,scikit-learn,cluster-computing,Python,Machine Learning,Scikit Learn,Cluster Computing,我正在使用scikitlearn中的函数MiniBatchKMeans()。好, 在其文件中有: 批量大小:int,可选,默认值:100 小批量的大小 初始大小:int,可选,默认值:3*批量大小 为加速初始化而随机采样的样本数(有时以牺牲准确性为代价):唯一的算法是通过对数据的随机子集运行批处理KMeans来初始化的。这需要大于n_集群 我不太明白,因为小批量的最终维度似乎是3*batch\u size,而不是batch\u size参数指定的维度 我有什么误解吗。如果是这样,有人可以解释这两
谢谢 批次大小由
批次大小
周期定义。此外,您还可以定义init_size
,它是为初始化过程而采集的样本的大小,默认情况下它是3*batch_size
。您可以简单地设置bath_size=100
和init_size=10
,然后使用10个样本执行初始化(kmeans不是全局收敛的,在初始化阶段有许多技术可以处理)然后,在算法执行期间将使用批处理100。您的意思是在初始化过程中选择初始质心吗?是的。默认情况下,在该步骤中使用k-means++启发式。