Machine learning 具有多个不相关特征的聚类算法

Machine learning 具有多个不相关特征的聚类算法,machine-learning,k-means,dbscan,Machine Learning,K Means,Dbscan,我一直在看关于集群的教程。我理解小数据集(如iris等)的概念。我遇到的问题是试图将一个数据集与20个不相关的特征进行聚类。例如,当这些特征中的5或6个用二进制表示,其余的是数字特征时,我如何处理这种情况?假设功能1是1200,功能2是10,功能3是1,功能4是1等等。像k-means这样的算法在这种情况下是如何工作的?它是将所有功能1、功能2等聚集在一起,还是将所有二进制功能聚集在一起?IMO将不相关的功能聚集在一起没有多大意义……嗨,我一直在kaggle的数据集上尝试kmeans,该数据集有

我一直在看关于集群的教程。我理解小数据集(如iris等)的概念。我遇到的问题是试图将一个数据集与20个不相关的特征进行聚类。例如,当这些特征中的5或6个用二进制表示,其余的是数字特征时,我如何处理这种情况?假设功能1是1200,功能2是10,功能3是1,功能4是1等等。像k-means这样的算法在这种情况下是如何工作的?它是将所有功能1、功能2等聚集在一起,还是将所有二进制功能聚集在一起?

IMO将不相关的功能聚集在一起没有多大意义……嗨,我一直在kaggle的数据集上尝试kmeans,该数据集有30个功能,基于环境和车辆的功能,我可以运行分类算法,如逻辑回归,以预测驾驶员的警觉性。我想我的观点是,像这样的数据集适合聚类算法吗。如果是的话,什么会聚集在一起?我的意思是当你聚集在一起不相关的功能-它给你什么?它将放在一组
2个苹果
3头猪
和另一组
1200辆车
900公斤的东西
-这有什么意义吗?你提到的对象永远不会在一个数据集中。我的特征在一个数据集中。这些特征可能不相关,但可以使用有监督的算法将它们组合起来进行预测。我正在努力了解如何在无监督的算法中使用这个数据集或许多其他类似的数据集。看看kmeans优化的方程。这对您的数据有意义吗?如果没有,那么结果将不会有用。我不相信总结所有的特性总是一件好事。。。因为这意味着计算“每小时4轮+140英里”,这显然是胡说八道。当你把单位放在属性上时,就更容易看到了。在我看来,将不相关的特征进行聚类没有多大意义……嗨,我一直在kaggle的数据集上尝试kmeans,该数据集有30个特征,生理、环境和基于车辆的特征,我可以运行分类算法,比如逻辑回归来预测驾驶员的警觉性。我想我的观点是,像这样的数据集适合聚类算法吗。如果是的话,什么会聚集在一起?我的意思是当你聚集在一起不相关的功能-它给你什么?它将放在一组
2个苹果
3头猪
和另一组
1200辆车
900公斤的东西
-这有什么意义吗?你提到的对象永远不会在一个数据集中。我的特征在一个数据集中。这些特征可能不相关,但可以使用有监督的算法将它们组合起来进行预测。我正在努力了解如何在无监督的算法中使用这个数据集或许多其他类似的数据集。看看kmeans优化的方程。这对您的数据有意义吗?如果没有,那么结果将不会有用。我不相信总结所有的特性总是一件好事。。。因为这意味着计算“每小时4轮+140英里”,这显然是胡说八道。在属性上添加单位时,更容易看到。