Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/macos/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cluster analysis DBSCAN ELKI实现中的示例_权重选项_Cluster Analysis_Dbscan_Elki - Fatal编程技术网

Cluster analysis DBSCAN ELKI实现中的示例_权重选项

Cluster analysis DBSCAN ELKI实现中的示例_权重选项,cluster-analysis,dbscan,elki,Cluster Analysis,Dbscan,Elki,我的目标是在包含许多近似重复点的数据集中查找异常值,我希望使用DBSCAN的ELKI实现来完成此任务 由于我不关心集群本身,只关心离群值(我假设离群值与集群相对较远),因此我希望通过在网格上聚合/组合点并使用scikit learn As中实现的概念来加快运行时间 你能不能在ELKI中显示进行类似分析的最低代码 假设我的数据集包含两列特征(聚合/组合点在x-y网格上的坐标)和第三列样本权重样本权重(聚合/组合点附近的原始数据集点的数量)。在scikit learn中,我期望的答案是——以以下方式

我的目标是在包含许多近似重复点的数据集中查找异常值,我希望使用DBSCAN的ELKI实现来完成此任务

由于我不关心集群本身,只关心离群值(我假设离群值与集群相对较远),因此我希望通过在网格上聚合/组合点并使用scikit learn As中实现的概念来加快运行时间

你能不能在ELKI中显示进行类似分析的最低代码


假设我的数据集包含两列
特征
(聚合/组合点在x-y网格上的坐标)和第三列样本权重
样本权重
(聚合/组合点附近的原始数据集点的数量)。在scikit learn中,我期望的答案是——以以下方式调用函数
fit
fit(self,features,y=None,sample\u weight=sample\u weight\u feature)
这目前在ELKI中没有实现,尽管可以通过
GeneralizedDBSCAN
类轻松添加。你不用数数邻居,而是把他们的重量加起来

为此,您需要修改
GeneralizedDBSCAN
corepridicate
,以获得“加权corepricate”。 只要您从Java实例化对象(并将关系直接传递给类),这应该相当简单——在实例化“WeightedCorePredicate”时,您只需传递权重关系。只有当您尝试通过命令行使其全部可用以指定输入格式以及它如何选择正确的关系和列时,才会变得困难

不过,让这个命令行和minigui可用并不是件小事,因为您需要权重的第二个关系。从Java代码来看,一旦您理解了使用关系而不是数组来处理所有事情的概念,就相当容易了。粗略地说,对于每个邻居,添加权重关系中的权重,并将其与阈值进行比较,而不是将计数与“minpts”整数进行比较

由于这是最近另一位用户提出的请求,我将非常感谢向ELKI提交请求


至于异常点检测的目的,我建议使用一种为异常点检测而设计的方法。例如,局部离群因子,甚至是简单的k-最近邻检测器应该可以很好地工作,并且可以比DBSCAN更快。我不相信你的方法会带来很多好处——在指数结构的帮助下,DBSCAN通常速度相当快;您的重复数据消除方法可能已经像DBSCAN一样昂贵,具有类似的基于网格的数据索引。

感谢您的评论@Anony mouse!我看到你和埃里克·舒伯特回答了类似的问题,所以我认为这与论坛有关。请让我知道,如果你可以建议任何其他地方问这个问题。谢谢@没有一个Mousse,我修改为使用elki.clustering.dbscan.dbscan
km=new dbscan(dist,eps*eps,minpts)
,但目前没有尝试实现示例权重功能。