Python 无监督学习聚类一维阵列_Python_Scikit Learn_Cluster Analysis_Unsupervised Learning

Python 无监督学习聚类一维阵列

python scikit-learn

Python 无监督学习聚类一维阵列,python,scikit-learn,cluster-analysis,unsupervised-learning,Python,Scikit Learn,Cluster Analysis,Unsupervised Learning,我面临以下阵列： y = [1,2,4,7,9,5,4,7,9,56,57,54,60,200,297,275,243] 我想做的是提取得分最高的集群。那就是 best_cluster = [200,297,275,243] 在这个主题上，我已经检查了很多关于stack的问题，大多数问题都建议使用kmeans。尽管其他一些人提到kmeans对于1D阵列集群来说可能是一种过度的杀伤力。然而，kmeans是一种监督学习算法，因此这意味着我必须传递质心的数量。因为我需要将这个问题推广到其他数组，

我面临以下阵列：

y = [1,2,4,7,9,5,4,7,9,56,57,54,60,200,297,275,243]

我想做的是提取得分最高的集群。那就是

best_cluster = [200,297,275,243]

在这个主题上，我已经检查了很多关于stack的问题，大多数问题都建议使用kmeans。尽管其他一些人提到kmeans对于1D阵列集群来说可能是一种过度的杀伤力。然而，kmeans是一种监督学习算法，因此这意味着我必须传递质心的数量。因为我需要将这个问题推广到其他数组，所以我无法传递每个数组的质心数。因此，我正在考虑实现某种无监督学习算法，这种算法能够自己计算出集群并选择最高的集群。在数组y中，我将看到3个簇，分别为[1,2,4,7,9,5,4,7,9]，[56,57,54,60]，[200297275243]。考虑到计算成本和准确性，什么算法最适合我的需要？我如何为我的问题实现它？

试试。来自MeanShift的sklean：

该算法自动设置聚类数

修改的演示代码：

import numpy as np
from sklearn.cluster import MeanShift, estimate_bandwidth

# #############################################################################
# Generate sample data
X = [1,2,4,7,9,5,4,7,9,56,57,54,60,200,297,275,243]
X = np.reshape(X, (-1, 1))

# #############################################################################
# Compute clustering with MeanShift

# The following bandwidth can be automatically detected using
# bandwidth = estimate_bandwidth(X, quantile=0.2, n_samples=100)

ms = MeanShift(bandwidth=None, bin_seeding=True)
ms.fit(X)
labels = ms.labels_
cluster_centers = ms.cluster_centers_

labels_unique = np.unique(labels)
n_clusters_ = len(labels_unique)

print("number of estimated clusters : %d" % n_clusters_)
print(labels)

输出：

number of estimated clusters : 2
[0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1]

请注意，MeanShift不能随样本数而伸缩。建议的上限为10000

顺便说一句，正如rahlf23已经提到的，K-mean是一种无监督学习算法。您必须指定集群的数量这一事实并不意味着它是受监督的

另见：

min\u cluster\u size

metric

minu_cluster\u size

metric

欧几里德

from hdbscan import HDBSCAN
import numpy as np

y = [1,2,4,7,9,5,4,7,9,56,57,54,60,200,297,275,243]
y = np.reshape(y, (-1, 1))

clusterer = HDBSCAN(min_cluster_size=3)
cluster_labels = clusterer.fit_predict(y)

best_cluster = clusterer.exemplars_[cluster_labels[y.argmax()]].ravel()
print(best_cluster)

[2972075 243]

x[I]-x[I-1]