Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 确定DBSCAN算法的输入值_Python_Cluster Analysis_Dbscan - Fatal编程技术网

Python 确定DBSCAN算法的输入值

Python 确定DBSCAN算法的输入值,python,cluster-analysis,dbscan,Python,Cluster Analysis,Dbscan,我已经用python编写了实现DBSCAN集群算法的代码。 我的数据集由14k个用户组成,每个用户由10个特征表示。 我无法决定到底保留什么作为Min_样本值和epsilon作为输入 我该如何决定? 相似性度量是欧几里德距离(因此它变得更加难以确定)。任何指针?DBSCAN通常很难估计其参数 你想过光学算法吗?在这种情况下,您只需要与最小集群大小相对应的Min_样本 否则,对于DBSCAN来说,我过去是通过反复试验来实现的:尝试一些值,看看会发生什么。要遵循的一般规则是,如果数据集有噪声,则应该

我已经用python编写了实现DBSCAN集群算法的代码。 我的数据集由14k个用户组成,每个用户由10个特征表示。 我无法决定到底保留什么作为Min_样本值和epsilon作为输入 我该如何决定?
相似性度量是欧几里德距离(因此它变得更加难以确定)。任何指针?

DBSCAN通常很难估计其参数

你想过光学算法吗?在这种情况下,您只需要与最小集群大小相对应的Min_样本


否则,对于DBSCAN来说,我过去是通过反复试验来实现的:尝试一些值,看看会发生什么。要遵循的一般规则是,如果数据集有噪声,则应该有一个较大的值,并且它还与维度数相关(在本例中为10)。

评估数据集上的欧几里德距离。它有用吗?什么是合理的相似性阈值?然后将此阈值用作DBSCAN的ε。我应该如何在数据集上计算欧几里德距离?@Anony Mouse:我在想:将欧几里德距离标准化在0-1范围内是否有意义。现在距离可能会达到10公里以上,这使得sit很难确定阈值。但我不知道如何使其正常化。有什么想法吗?你可能想读一读维度诅咒,然后使用一些完全不同的距离函数。欧几里德距离在物理世界中是有意义的,但在任意空间中是没有意义的。