Machine learning LOF上的输出图更改

Machine learning LOF上的输出图更改,machine-learning,data-mining,elki,Machine Learning,Data Mining,Elki,我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在航天飞机数据集上运行lof算法时,无论是否使用决策类,但elki都在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么?可视化使用Apache Batik,它需要一个复杂的XML文档(准确地说是SVG)以及Batik的渲染树都在内存中 这使得可视化不具有很强的可伸缩性,并且存在参数 -vis.sampling 默认为10000个样本。因此,在较大的数据集上,每次都会看到不同的样本。当然,它仍然使用所有数据进行分析。

我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在航天飞机数据集上运行lof算法时,无论是否使用决策类,但elki都在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么?

可视化使用Apache Batik,它需要一个复杂的XML文档(准确地说是SVG)以及Batik的渲染树都在内存中

这使得可视化不具有很强的可伸缩性,并且存在参数

-vis.sampling
默认为10000个样本。因此,在较大的数据集上,每次都会看到不同的样本。当然,它仍然使用所有数据进行分析。添加一个参数来修复随机种子是相当容易的,但人们往往会抱怨参数太多

有关更适合异常值检测的穿梭机数据集变体,请参见本网站:


请注意,要正确读取文件,您将需要参数
-arff.externalid id-arff.classlabel outlier
,以便id列不用于分析,而outlier label列仅用作评估类。

Thx bro供您回复。我还有一个关于Elki的问题,因为对于50000个数据点,创建输出图需要的时间太长,所以我希望在一个文本文件中看到LOF的输出。在Elki中可能吗?是的,选择结果编写器而不是可视化工具。