Machine learning 云标签影响%的测试精度?

Machine learning 云标签影响%的测试精度?,machine-learning,deep-learning,pca,feature-engineering,Machine Learning,Deep Learning,Pca,Feature Engineering,我有96个特征,标签用1和-1表示,用于输入到深度学习模型 1-主成分分析 此处,3轴表示3个第一主分量。蓝色云表示标签1,红色云表示标签-1 即使我们能从视觉上识别出两种不同的云,它们也是粘在一起的。我认为我们在训练阶段可能会遇到这样的问题 2-t-SNE 对于具有t-SNE的相同特征和标签,我们仍然可以区分两个云,但它们仍然粘在一起 问题: 1-两个点云粘在一起的事实是否会影响培训和测试阶段的%准确性 2-当我们去掉红色和蓝色时,不知何故我们只有一朵大云。有没有办法解决两个云“粘在一起

我有96个特征,标签用1和-1表示,用于输入到深度学习模型

1-主成分分析 此处,3轴表示3个第一主分量。蓝色云表示标签1,红色云表示标签-1

即使我们能从视觉上识别出两种不同的云,它们也是粘在一起的。我认为我们在训练阶段可能会遇到这样的问题

2-t-SNE 对于具有t-SNE的相同特征和标签,我们仍然可以区分两个云,但它们仍然粘在一起

问题: 1-两个点云粘在一起的事实是否会影响培训和测试阶段的%准确性


2-当我们去掉红色和蓝色时,不知何故我们只有一朵大云。有没有办法解决两个云“粘在一起”的问题?

你所说的粘在一起,意味着在这个空间中,你的数据不是线性可分的。它似乎也不是非线性可分的。我希望通过这些组件,您肯定会得到较差的精度

解决问题的方法是使用更多或不同的数据。你有一些选择

1) 加入更多的主成分怎么样?也许,4、5、10个组件可以解决您的问题。根据您的数据集,这可能不起作用,但最明显的是先尝试一下

2) 您可以尝试其他矩阵分解技术。PCA不是唯一的一个。有NMF、内核PCA、LSA和许多其他。哪一种最适合您,从根本上说取决于您的数据分布

3) 使用任何其他类型的特征选择。坦白地说,96开始并不多。你打算做深度学习吗?通常情况下,您不会将所有96个功能都放入深度学习模型中吗?如果需要的话,除了矩阵分解之外,还有很多其他方法可以选择特征


祝你好运

我如何使用4、5或10个主成分,并且仍然有视觉效果?你已经超越了自己。在你担心视觉效果之前,你需要一个好的模型。还有更先进的可视化技术。但是即使只是基本的,也许你想象第2、4和5部分?也许这个组合看起来不错。仅仅因为你只能简单地看到3个组件,并不意味着它们必须是前三个组件。