Python 使用DBSCAN聚类过程的奇怪结果_Python_Pandas_Scikit Learn_Cluster Analysis

Python 使用DBSCAN聚类过程的奇怪结果

python pandas scikit-learn

Python 使用DBSCAN聚类过程的奇怪结果,python,pandas,scikit-learn,cluster-analysis,Python,Pandas,Scikit Learn,Cluster Analysis,我正在处理与集群任务相关的任务。DBSCAN fit程序会产生奇怪的结果，我不知道我的错误在哪里。我简化了代码，只留下了重要部分： clusters = pd.read_csv('cl.csv') def stb_metric(mac1, mac2): if mac1[0] == mac2[0]: return 0 print(mac1[0], mac2[0]) return 1 X = clusters.mac.unique().reshape(-1

我正在处理与集群任务相关的任务。DBSCAN fit程序会产生奇怪的结果，我不知道我的错误在哪里。我简化了代码，只留下了重要部分：

clusters = pd.read_csv('cl.csv')

def stb_metric(mac1, mac2):
    if mac1[0] == mac2[0]:
        return 0
    print(mac1[0], mac2[0])
    return 1

X = clusters.mac.unique().reshape(-1, 1)
db = DBSCAN(eps = 1, min_samples = 1, metric = stb_metric).fit(X)

在“stb_公制”输出中，我观察到不存在mac1或mac2。我已附加csv文件进行测试。结果如下：

(8.354702571827299e+18, 2.9454553327798374e+17)
(8.354702571827299e+18, 6.197480706091255e+17)
(8.354702571827299e+18, 2.2314854373712773e+18)
(8.354702571827299e+18, 2.5842000416550815e+18)
(8.354702571827299e+18, 3.525512049236994e+18)
(8.354702571827299e+18, 3.678065423036415e+18)
(8.354702571827299e+18, 5.232482030018176e+18)
(8.354702571827299e+18, 9.212176082078934e+18)
(8.354702571827299e+18, 1.0293104245975763e+19)
(8.354702571827299e+18, 1.2339113289676194e+19)
(8.354702571827299e+18, 1.2848720441363968e+19) etc

首先，您与离散度量和minpts=1的组合表示您正在滥用DBSCAN来检测重复项。有更有效和更聪明的方法来做这件事

现在你的问题可能是：学习

它试图变得聪明，并且可能尝试使用一个球树来加速这一过程。不幸的是，纯python速度很慢，因此这些部分是在Cython中构建的，这最终会迫使您的数据转换为浮点向量——因为这是这些子例程支持的唯一数据类型

解决方法是使用

algorithm=“brute”

，但运行时将为O（n²）。不幸的是，使用预先计算的距离矩阵（如果你能负担得起O（n²）内存的话）通常比使用sklearn的ufunc距离要好。

你是否尝试过在

pd.read\u csv

中指定

dtype

？类型无所谓-我做过几次改变mac字段类型的实验。。。。