Machine learning 初始kmeans点在BigQuery ML中是如何工作的?

Machine learning 初始kmeans点在BigQuery ML中是如何工作的?,machine-learning,google-bigquery,k-means,Machine Learning,Google Bigquery,K Means,我正在使用BigQuery进行机器学习,更具体地说,是针对未标记数据集的k-means方法,我正在尝试查找集群。 我想知道是否有人发现了BQ ML是如何启动质心的 我已经试过查看文档,但要么什么都没有,要么就是找不到 创建模型`project.dataset.MODEL_name` 选择权 模型类型=kmeans, num_集群=3, 距离类型=欧几里得, 提前停止=正确, 最大迭代次数=20次, 标准化功能=真 像 从“project.dataset.sample\u date\u to\u

我正在使用BigQuery进行机器学习,更具体地说,是针对未标记数据集的k-means方法,我正在尝试查找集群。 我想知道是否有人发现了BQ ML是如何启动质心的

我已经试过查看文档,但要么什么都没有,要么就是找不到

创建模型`project.dataset.MODEL_name` 选择权 模型类型=kmeans, num_集群=3, 距离类型=欧几里得, 提前停止=正确, 最大迭代次数=20次, 标准化功能=真 像 从“project.dataset.sample\u date\u to\u train”中选择* 每次跑步的结果都有点不同。
有人对这个主题有经验吗?

如果我不得不猜测的话,它可能使用了与BQML类似的逻辑,可能是在引擎盖下使用TF。随机分区似乎是TensorFlow的默认设置,所以我猜是这样。

每次训练模型时,您都会看到不同的结果,这是由于分配给质心的初始值具有随机性。K-means算法首先随机选择K个质心的valueposition。如果您查看此文档,它将解释使用K-means算法时的确切过程

对于仍在寻找答案的人来说,最近BigQueryML上有一个关于这个主题的更新。CREATE MODEL语句中添加了两个新参数,即:

KMEANS_INIT_方法 KMEANS_INIT_COL
基本上,您可以设置属于数据表的自定义K个观测值,该数据表将用作K-means算法的初始质心。您可以在此处找到相关文档。也许这不是解决您问题的最令人兴奋的解决方案,但如果您需要再现性,您仍然可以使用它。

我明白您的意思,我不知道使用它的可能性,也许您也不知道哈哈。但是无论如何,我没有TF模型,我使用的是BQ模型,可能是在BQML上创建kmeans模型的更简单的方法,但是我认为这样我们就没有设置自己初始点的选项了。很好!他们更新了文档,现在可以了。谢谢,@ric-s