Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm DBSCAN vs OPTICS用于自动群集_Algorithm_Cluster Analysis_Dbscan_Optics Algorithm - Fatal编程技术网

Algorithm DBSCAN vs OPTICS用于自动群集

Algorithm DBSCAN vs OPTICS用于自动群集,algorithm,cluster-analysis,dbscan,optics-algorithm,Algorithm,Cluster Analysis,Dbscan,Optics Algorithm,我知道DBSCAN需要两个参数(minPts和Eps)。然而,我对光学元件需要什么参数感到困惑,因为一些来源说它需要eps,而另一些来源说它只需要MINPT 如果我试图自动确定最适合丢弃异常值的参数值,那么使用哪种算法更好?根据,minPts和Eps都是必需的。那些说不需要Eps的消息来源可能正在使用某种方法来自动确定Eps的良好价值。然而,包含Eps只是为了减少算法的运行时间。这不是必需的 关于哪种方法最适合去除离群值,最好的方法莫过于用数字支持您的决策:获取一个数据集并标记其离群值,然后对其

我知道DBSCAN需要两个参数(minPts和Eps)。然而,我对光学元件需要什么参数感到困惑,因为一些来源说它需要eps,而另一些来源说它只需要MINPT

如果我试图自动确定最适合丢弃异常值的参数值,那么使用哪种算法更好?

根据,minPts和Eps都是必需的。那些说不需要Eps的消息来源可能正在使用某种方法来自动确定Eps的良好价值。然而,包含Eps只是为了减少算法的运行时间。这不是必需的

关于哪种方法最适合去除离群值,最好的方法莫过于用数字支持您的决策:获取一个数据集并标记其离群值,然后对其运行两种算法。对集群使用某种性能度量(AUC、F分数等)来选择最佳。根据,MINPT和Eps都是必需的。那些说不需要Eps的消息来源可能正在使用某种方法来自动确定Eps的良好价值。然而,包含Eps只是为了减少算法的运行时间。这不是必需的


关于哪种方法最适合去除离群值,最好的方法莫过于用数字支持您的决策:获取一个数据集并标记其离群值,然后对其运行两种算法。对集群使用某种性能度量(AUC、F-score等)来选择最佳值。

光学系统可以在eps=infinity的情况下运行。但这是O(n^2)复杂性。 (假设您有一个实际使用索引进行加速的实现。)


但是光学并没有像DBSCAN那样定义明确的噪声概念。最接近的方法是取集群层次结构的最顶层(即完整的数据集)减去下面集群中的任何内容。但是,给定一个层次聚类,您可以在层次中的多个级别上使用“噪波”,因此噪波的概念在这里不再有效。

光学可以在eps=infinity的情况下运行。但这是O(n^2)复杂性。 (假设您有一个实际使用索引进行加速的实现。)


但是光学并没有像DBSCAN那样定义明确的噪声概念。最接近的方法是取集群层次结构的最顶层(即完整的数据集)减去下面集群中的任何内容。但是,给定一个层次聚类,您可以在层次中的多个级别上使用“噪波”,因此噪波的概念在这里不再有效。

总之,有一些区别:

内存成本:光学群集技术需要更多内存,因为它维护一个优先级队列(最小堆),以确定下一个数据点,该数据点在可达性距离方面最接近当前正在处理的点。由于最近邻查询比DBSCAN中的radius查询更复杂,因此它还需要更多的计算能力

更少的参数:光学聚类技术不需要维护epsilon参数,仅在上述伪代码中给出,以减少所需时间。这将减少参数调整的分析过程

光学器件不会将给定的数据分离到集群中。它只产生一个可达距离图,由程序员解释相应地对点进行聚类

光学系统对参数设置相对不敏感。如果参数刚好“足够大”,则效果良好

有关更多详细信息,请参阅

光学


总而言之,对于dbscan,有几个不同之处:

内存成本:光学群集技术需要更多内存,因为它维护一个优先级队列(最小堆),以确定下一个数据点,该数据点在可达性距离方面最接近当前正在处理的点。由于最近邻查询比DBSCAN中的radius查询更复杂,因此它还需要更多的计算能力

更少的参数:光学聚类技术不需要维护epsilon参数,仅在上述伪代码中给出,以减少所需时间。这将减少参数调整的分析过程

光学器件不会将给定的数据分离到集群中。它只产生一个可达距离图,由程序员解释相应地对点进行聚类

光学系统对参数设置相对不敏感。如果参数刚好“足够大”,则效果良好

有关更多详细信息,请参阅

光学


对于dbscan

光学算法,我一直混淆的一个概念是如何自动确定可达性以最小化噪声?本文定义了两个与去除噪声相关的距离:点(对象)的核心距离p,这是它与最近点之间的距离,该距离允许空间中包含的点的计数为最小点。然后,存在两点p和o的可达距离(o是簇的原点),这是o的核心距离或o和p之间的距离(d(o,p)可能小于o的核心距离)的最大值。如图4所示。如果某个物体的某些Eps为“Eps”,且其核心距离大于Eps,则该物体被归类为噪声。本文的图8详细描述了这方面的算法。我在原始文章中没有看到作者是如何选择Eps的,但我可能忽略了它。他们似乎是根据可达距离来选择的。我在重读一遍,看看我错过了什么。我一直对光学算法感到困惑的一个概念是,如何自动确定可达性以最小化噪声?这篇论文定义了两个与去除噪声相关的距离:c