Machine learning 在更大的数据集上进行更紧密的聚类?

Machine learning 在更大的数据集上进行更紧密的聚类?,machine-learning,cluster-analysis,data-science,knn,dimensionality-reduction,Machine Learning,Cluster Analysis,Data Science,Knn,Dimensionality Reduction,不确定我问的问题是否在正确的地方,但无论如何 我一直在使用sci kit学习包对两个不同的数据集进行降维,一个是包含数千个基因的大型数据集,另一个是包含最相关的50个基因的较小数据集,这是我的数据集中的专业人士确定的 基本上,使用几乎所有的降维技术,我发现更小的数据集具有更高的精度(正如预期的那样) 然而,每当我执行LDA(线性判别分析)时,我都会看到相反的效果,即较大的数据集具有较高的精度(更紧密的聚类、更高的纯度和使用KNN的更高精度) 你们有什么建议可以让我检查我没有犯错误,或者调查为什么

不确定我问的问题是否在正确的地方,但无论如何

我一直在使用sci kit学习包对两个不同的数据集进行降维,一个是包含数千个基因的大型数据集,另一个是包含最相关的50个基因的较小数据集,这是我的数据集中的专业人士确定的

基本上,使用几乎所有的降维技术,我发现更小的数据集具有更高的精度(正如预期的那样)

然而,每当我执行LDA(线性判别分析)时,我都会看到相反的效果,即较大的数据集具有较高的精度(更紧密的聚类、更高的纯度和使用KNN的更高精度)

你们有什么建议可以让我检查我没有犯错误,或者调查为什么会发生这种情况吗


谢谢:)

嘿,首先,不太清楚什么是终点,什么是到达终点的方法。似乎您希望先进行降维,然后进行聚类,您可以与一些参考进行比较。简单地说,当您进行降维时,所谓的相关功能是否在前几个组件中占有重要地位?也许你可以向更熟悉你试图分析的社区解释全部问题: