Machine learning 初始kmeans点在BigQuery ML中是如何工作的？_Machine Learning_Google Bigquery_K Means

Machine learning 初始kmeans点在BigQuery ML中是如何工作的？

machine-learning google-bigquery

Machine learning 初始kmeans点在BigQuery ML中是如何工作的？,machine-learning,google-bigquery,k-means,Machine Learning,Google Bigquery,K Means,我正在使用BigQuery进行机器学习，更具体地说，是针对未标记数据集的k-means方法，我正在尝试查找集群。我想知道是否有人发现了BQ ML是如何启动质心的我已经试过查看文档，但要么什么都没有，要么就是找不到创建模型`project.dataset.MODEL_name` 选择权模型类型=kmeans， num_集群=3，距离类型=欧几里得，提前停止=正确，最大迭代次数=20次，标准化功能=真像从“project.dataset.sample\u date\u to\u

我正在使用BigQuery进行机器学习，更具体地说，是针对未标记数据集的k-means方法，我正在尝试查找集群。我想知道是否有人发现了BQ ML是如何启动质心的

我已经试过查看文档，但要么什么都没有，要么就是找不到

创建模型`project.dataset.MODEL_name` 选择权模型类型=kmeans， num_集群=3，距离类型=欧几里得，提前停止=正确，最大迭代次数=20次，标准化功能=真像从“project.dataset.sample\u date\u to\u train”中选择* 每次跑步的结果都有点不同。

有人对这个主题有经验吗？

如果我不得不猜测的话，它可能使用了与BQML类似的逻辑，可能是在引擎盖下使用TF。随机分区似乎是TensorFlow的默认设置，所以我猜是这样。

每次训练模型时，您都会看到不同的结果，这是由于分配给质心的初始值具有随机性。K-means算法首先随机选择K个质心的valueposition。如果您查看此文档，它将解释使用K-means算法时的确切过程

对于仍在寻找答案的人来说，最近BigQueryML上有一个关于这个主题的更新。CREATE MODEL语句中添加了两个新参数，即：

KMEANS_INIT_方法 KMEANS_INIT_COL

基本上，您可以设置属于数据表的自定义K个观测值，该数据表将用作K-means算法的初始质心。您可以在此处找到相关文档。也许这不是解决您问题的最令人兴奋的解决方案，但如果您需要再现性，您仍然可以使用它。

我明白您的意思，我不知道使用它的可能性，也许您也不知道哈哈。但是无论如何，我没有TF模型，我使用的是BQ模型，可能是在BQML上创建kmeans模型的更简单的方法，但是我认为这样我们就没有设置自己初始点的选项了。很好！他们更新了文档，现在可以了。谢谢，@ric-s