Statistics 带椭球的k-均值

Statistics 带椭球的k-均值,statistics,machine-learning,theory,computational-geometry,k-means,Statistics,Machine Learning,Theory,Computational Geometry,K Means,我在R^3中有n个点,我想用k个椭球或圆柱体来覆盖它们(我真的不在乎,哪一个更容易)。我想近似地最小化卷的并集。假设n是数万,k是少数。开发时间(即简单性)比运行时更重要 显然,我可以运行k-means并使用完美的球来绘制椭球体。或者我可以运行k-means,然后在每个簇中使用最小的封闭椭球,而不是用球覆盖,尽管在最坏的情况下也没有更好的效果。我见过关于用k-均值处理各向异性的讨论,但我看到的链接似乎认为我手中有张量;我不知道,我只知道数据是椭球体的并集。有什么建议吗 [编辑:有几票赞成拟合多元

我在R^3中有n个点,我想用k个椭球或圆柱体来覆盖它们(我真的不在乎,哪一个更容易)。我想近似地最小化卷的并集。假设n是数万,k是少数。开发时间(即简单性)比运行时更重要

显然,我可以运行k-means并使用完美的球来绘制椭球体。或者我可以运行k-means,然后在每个簇中使用最小的封闭椭球,而不是用球覆盖,尽管在最坏的情况下也没有更好的效果。我见过关于用k-均值处理各向异性的讨论,但我看到的链接似乎认为我手中有张量;我不知道,我只知道数据是椭球体的并集。有什么建议吗


[编辑:有几票赞成拟合多元高斯混合,这似乎是一个可行的尝试。启动EM代码这样做不会最小化联合体的体积,但当然k-means也不会最小化体积。]

所以你可能知道k-means是NP难的,这个问题更一般(更难)。因为你想做椭球体,所以拟合k个多元高斯分布的混合物可能会很有意义。您可能希望尝试并找到一个最大似然解,这是一个非凸优化,但至少它很容易制定,并且可能有可用的代码


除此之外,您可能需要从头开始编写自己的启发式搜索算法,这只是一项巨大的任务。

我使用了多变量高斯函数做了类似的事情。作者使用峰度作为分割度量,我发现这是一种令人满意的应用方法,从激光测距仪(即计算机视觉)获得聚类点。

如果椭球体可以重叠很多, 然后像k-means这样的方法尝试将点分配给单个簇 不会很好用的。 每个椭球体的一部分必须适合对象的表面, 但其他的可能在里面,别担心。 即覆盖算法 在我看来,这与聚类/分割算法有很大不同; 工会不是分裂

有大量重叠的高斯混合? 不知道,但请看上面的图片和代码

即使在2d中,覆盖物也很硬,请参见
.

谢谢。我没有担心自动选择k,但这可能会奏效;我只想要一个近似值,我的数据不是由小工具组成的。或者,如果是这样,我可以责怪用户。用EM来计算高斯混合并不能真正最小化我要最小化的东西。不过,它可能工作得很好,所以我会试试——k-means也不会最小化它。