Machine learning 聚类标记的无偏预测_Machine Learning_Cluster Analysis_Prediction_Supervised Learning_Unsupervised Learning

Machine learning 聚类标记的无偏预测

machine-learning

Machine learning 聚类标记的无偏预测,machine-learning,cluster-analysis,prediction,supervised-learning,unsupervised-learning,Machine Learning,Cluster Analysis,Prediction,Supervised Learning,Unsupervised Learning,我感兴趣的是评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集，我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了4个集群。现在，我想知道这个集群成员资格是否可以从表达式数据中预测。使用全数据无监督聚类标签作为输出变量，以交叉验证的方式训练有监督分类器。因此，我使用80%的数据训练分类器，并评估其他20%的准确性这种方法是否有偏差，因为输出集群标签是从完整数据中学习的？如果是的话，我如何能以公正的方式做到这一点？如果我以交叉验证的方式进行聚类，我想我

我感兴趣的是评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集，我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了4个集群。现在，我想知道这个集群成员资格是否可以从表达式数据中预测。使用全数据无监督聚类标签作为输出变量，以交叉验证的方式训练有监督分类器。因此，我使用80%的数据训练分类器，并评估其他20%的准确性

这种方法是否有偏差，因为输出集群标签是从完整数据中学习的？如果是的话，我如何能以公正的方式做到这一点？如果我以交叉验证的方式进行聚类，我想我需要在每个不同的折叠之间手动关联聚类。由于我特别感兴趣的是四个聚类中的一个与其他聚类的可预测性，因此我必须通过某种手动分析找出数据的每个折叠聚类中的哪个聚类。

老实说，整个问题似乎不正确。如果您有一种算法（聚类技术）来构建一些数据分区，那么它总是可以通过有监督的方法进行预测。事实上，根据使用的一系列聚类的知识，我们可以提出完美的分类器（精度接近100%）。你应该重新思考问题陈述。特别是，通过添加一些约束，可以将每种聚类技术转换为分类器，这些约束必须将元素放置在同一个聚类中。因此，如果使用cluster
C
，则可以简单地将
C
转换为半监督方法，该方法必须根据给定的标签对训练集中获得的元素进行聚类。这样，我们将几乎始终创建完全相同的标签，从而实现100%的准确率
创建有效假设的唯一方法是由某位专家指定这些标签，因为这样我们就无法构造“具有约束的专家”分类器。因此，上述推理将失败。换句话说，如果你想测试某些标签是否可以在监督下预测，你需要以一种难以建模的方式获得这些标签（例如人类专家、自然、物理、实验、昂贵的数值评估），而不是简单的聚类模型，因为监督学习的全部目的就是找到这个潜在的模型。如果这个模型是事先知道的（不是算法本身，而是我们），那么整个推理是不正确的。您将只回答以下问题：
通过选择聚类技术分析的模型族与所用分类器的假设空间族相似
或者更正式地说
使用的分类器与所选聚类算法在考虑的数据集上产生的分布一致

谢谢你的意见。使用有监督的方法对标记为无监督方法的对象进行分类似乎有点不对。一个相关的问题：假设我有一组样本，它们带有从某种无监督方法中学习到的集群标签。我现在想检查新数据并确定它们属于哪些集群。似乎我可以使用监督学习在原始数据上构建一个集群模型，并将其应用于新数据以识别集群成员。如何评估这些新标签？只是用一些集群一致性度量？