Python 如何使用KMeans断言数据集有噪声？_Python_Python 2.7_Machine Learning_Scikit Learn_K Means

Python 如何使用KMeans断言数据集有噪声？

python python-2.7 machine-learning scikit-learn

Python 如何使用KMeans断言数据集有噪声？,python,python-2.7,machine-learning,scikit-learn,k-means,Python,Python 2.7,Machine Learning,Scikit Learn,K Means,我偶然发现了一篇旧论文的摘录，其中随意提到如果需要，我们可以使用KMeans作为一种方法来断言数据集是有噪声的，因此证明我们的分类器工作正常可以合理预期在网上搜寻解决方案后，我找不到这种方法。如何做到这一点？如何调整此通用KMeans代码以断言此数据集包含噪声代码从 K-means聚类的本质是将一组多维向量划分为紧密分组的分区，然后用单个向量（又称质心）表示每个分区（又称聚类）。完成此操作后，您可以计算拟合优度，即获得的质心表示原始向量集的程度。拟合优度取决于选择的簇/质心数量、使用的

我偶然发现了一篇旧论文的摘录，其中随意提到

如果需要，我们可以使用KMeans作为一种方法来断言数据集是有噪声的，因此证明我们的分类器工作正常可以合理预期

在网上搜寻解决方案后，我找不到这种方法。如何做到这一点？如何调整此通用

KMeans

代码以断言此数据集包含噪声

代码从

K-means聚类的本质是将一组多维向量划分为紧密分组的分区，然后用单个向量（又称质心）表示每个分区（又称聚类）。完成此操作后，您可以计算拟合优度，即获得的质心表示原始向量集的程度。拟合优度取决于选择的簇/质心数量、使用的训练算法（如LBG algo）、选择初始质心的方法、用于计算向量之间距离的度量。。。当然，还有数据的统计特性（多维向量）

执行聚类后，可以使用拟合优度（或量化失真）对数据进行一些判断。例如，如果有两个不同的数据集给出两个显著不同的拟合优度值（同时保持所有其他因素，特别是聚类数相同），则可以说拟合优度较差的数据集更“复杂”，可能更“嘈杂”。我之所以引用这些判断，是因为它们是主观的（例如，您如何定义噪音？），并且受到您的训练算法和其他因素等的强烈影响

另一个例子是使用“干净”的数据集训练集群模型。然后，使用相同的模型（即相同的质心）对新数据集进行聚类。根据新数据集的拟合优度与原始干净训练数据集的拟合优度的不同，您可以对新数据集中的“噪声”做出一些判断

print(__doc__)


# Code source: Gael Varoqueux
# Modified for Documentation merge by Jaques Grobler
# License: BSD 3 clause

import numpy as np
import pylab as pl
from mpl_toolkits.mplot3d import Axes3D


from sklearn.cluster import KMeans
from sklearn import datasets

np.random.seed(5)

centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target

estimators = {'k_means_iris_3': KMeans(n_clusters=3),
              'k_means_iris_8': KMeans(n_clusters=8),
              'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,
                                              init='random')}


fignum = 1
for name, est in estimators.iteritems():
    fig = pl.figure(fignum, figsize=(4, 3))
    pl.clf()
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

    pl.cla()
    est.fit(X)
    labels = est.labels_

    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))

    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    ax.set_xlabel('Petal width')
    ax.set_ylabel('Sepal length')
    ax.set_zlabel('Petal length')
    fignum = fignum + 1

# Plot the ground truth
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

pl.cla()

for name, label in [('Setosa', 0),
                    ('Versicolour', 1),
                    ('Virginica', 2)]:
    ax.text3D(X[y == label, 3].mean(),
              X[y == label, 0].mean() + 1.5,
              X[y == label, 2].mean(), name,
              horizontalalignment='center',
              bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
pl.show()