Python 用于lat长点和标称特征的DBSCAN
我有一个类似于以下第一行的数据集:Python 用于lat长点和标称特征的DBSCAN,python,scikit-learn,dbscan,Python,Scikit Learn,Dbscan,我有一个类似于以下第一行的数据集: Name Geometry Restaurant School Hospital Bank Auto_Repair Gas_Station Salon Chipotle POINT(-82.458142 27.387703) 1 0 0 0 0 0 0 然而,我的实际数据集有40000个点和大约400个标称特征。我可以使用DBSCAN将我的点分为大约400个簇,但是这只是基于距离的簇。我如何解释我的名义特征,以便像餐厅和自动维修商店这样的积分不太可
Name Geometry Restaurant School Hospital Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0 0 0 0 0 0
然而,我的实际数据集有40000个点和大约400个标称特征。我可以使用DBSCAN将我的点分为大约400个簇,但是这只是基于距离的簇。我如何解释我的名义特征,以便像
餐厅
和自动维修
商店这样的积分不太可能出现在与餐厅
和沙龙
积分相同的集群中?我会用jaccard或余弦相似性矩阵调整haverstine距离矩阵吗?首先,您需要决定在哪个基础上进行聚类?位置接近或类型?您打算如何平衡这些因素?另外,在40k点上,由于O(n²)成本,我会避免使用基于距离矩阵的任何东西。