Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 用于lat长点和标称特征的DBSCAN_Python_Scikit Learn_Dbscan - Fatal编程技术网

Python 用于lat长点和标称特征的DBSCAN

Python 用于lat长点和标称特征的DBSCAN,python,scikit-learn,dbscan,Python,Scikit Learn,Dbscan,我有一个类似于以下第一行的数据集: Name Geometry Restaurant School Hospital Bank Auto_Repair Gas_Station Salon Chipotle POINT(-82.458142 27.387703) 1 0 0 0 0 0 0 然而,我的实际数据集有40000个点和大约400个标称特征。我可以使用DBSCAN将我的点分为大约400个簇,但是这只是基于距离的簇。我如何解释我的名义特征,以便像餐厅和自动维修商店这样的积分不太可

我有一个类似于以下第一行的数据集:

Name Geometry  Restaurant  School  Hospital  Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0  0 0 0 0 0

然而,我的实际数据集有40000个点和大约400个标称特征。我可以使用DBSCAN将我的点分为大约400个簇,但是这只是基于距离的簇。我如何解释我的名义特征,以便像
餐厅
自动维修
商店这样的积分不太可能出现在与
餐厅
沙龙
积分相同的集群中?我会用jaccard或余弦相似性矩阵调整haverstine距离矩阵吗?

首先,您需要决定在哪个基础上进行聚类?位置接近或类型?您打算如何平衡这些因素?另外,在40k点上,由于O(n²)成本,我会避免使用基于距离矩阵的任何东西。