Machine learning 在更大的数据集上进行更紧密的聚类？_Machine Learning_Cluster Analysis_Data Science_Knn_Dimensionality Reduction

Machine learning 在更大的数据集上进行更紧密的聚类？

machine-learning

Machine learning 在更大的数据集上进行更紧密的聚类？,machine-learning,cluster-analysis,data-science,knn,dimensionality-reduction,Machine Learning,Cluster Analysis,Data Science,Knn,Dimensionality Reduction,不确定我问的问题是否在正确的地方，但无论如何我一直在使用sci kit学习包对两个不同的数据集进行降维，一个是包含数千个基因的大型数据集，另一个是包含最相关的50个基因的较小数据集，这是我的数据集中的专业人士确定的基本上，使用几乎所有的降维技术，我发现更小的数据集具有更高的精度（正如预期的那样）然而，每当我执行LDA（线性判别分析）时，我都会看到相反的效果，即较大的数据集具有较高的精度（更紧密的聚类、更高的纯度和使用KNN的更高精度）你们有什么建议可以让我检查我没有犯错误，或者调查为什么

不确定我问的问题是否在正确的地方，但无论如何

我一直在使用sci kit学习包对两个不同的数据集进行降维，一个是包含数千个基因的大型数据集，另一个是包含最相关的50个基因的较小数据集，这是我的数据集中的专业人士确定的

基本上，使用几乎所有的降维技术，我发现更小的数据集具有更高的精度（正如预期的那样）

然而，每当我执行LDA（线性判别分析）时，我都会看到相反的效果，即较大的数据集具有较高的精度（更紧密的聚类、更高的纯度和使用KNN的更高精度）

你们有什么建议可以让我检查我没有犯错误，或者调查为什么会发生这种情况吗

谢谢：）

嘿，首先，不太清楚什么是终点，什么是到达终点的方法。似乎您希望先进行降维，然后进行聚类，您可以与一些参考进行比较。简单地说，当您进行降维时，所谓的相关功能是否在前几个组件中占有重要地位？也许你可以向更熟悉你试图分析的社区解释全部问题：