Python 数据挖掘:通过DBSCAN算法对标称属性进行聚类

Python 数据挖掘:通过DBSCAN算法对标称属性进行聚类,python,r,cluster-analysis,data-mining,Python,R,Cluster Analysis,Data Mining,我想用DBSCAN算法对数据集执行聚类。问题在于数据具有zipcode和currency等名义属性。知道如何处理这些值吗?两个选项: 定义一个自定义距离函数,根据需要处理这些属性。例如,对于邮政编码,您需要查找邻近性 使用通用DBSCAN并定义自定义邻居谓词。例如,它可能要求邮政编码是邻居,属性值是相似的 不要对邮政编码使用一个热编码。这没有多大意义。您还可以在分类属性上使用汉明距离,这更有效(请参见选项1)。检查此选项

我想用DBSCAN算法对数据集执行聚类。问题在于数据具有zipcode和currency等名义属性。知道如何处理这些值吗?

两个选项:

  • 定义一个自定义距离函数,根据需要处理这些属性。例如,对于邮政编码,您需要查找邻近性

  • 使用通用DBSCAN并定义自定义邻居谓词。例如,它可能要求邮政编码是邻居,属性值是相似的

  • 不要对邮政编码使用一个热编码。这没有多大意义。您还可以在分类属性上使用汉明距离,这更有效(请参见选项1)。

    检查此选项