Machine learning LOF上的输出图更改_Machine Learning_Data Mining_Elki

Machine learning LOF上的输出图更改

machine-learning

Machine learning LOF上的输出图更改,machine-learning,data-mining,elki,Machine Learning,Data Mining,Elki,我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在航天飞机数据集上运行lof算法时，无论是否使用决策类，但elki都在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么？可视化使用Apache Batik，它需要一个复杂的XML文档（准确地说是SVG）以及Batik的渲染树都在内存中这使得可视化不具有很强的可伸缩性，并且存在参数 -vis.sampling 默认为10000个样本。因此，在较大的数据集上，每次都会看到不同的样本。当然，它仍然使用所有数据进行分析。

我在从uci下载的名为shuttle的数据集上运行本地异常值因子。每次我在航天飞机数据集上运行lof算法时，无论是否使用决策类，但elki都在绘制不同的输出图。我很困惑每次绘制不同输出图的原因是什么？

可视化使用Apache Batik，它需要一个复杂的XML文档（准确地说是SVG）以及Batik的渲染树都在内存中

这使得可视化不具有很强的可伸缩性，并且存在参数

-vis.sampling

默认为10000个样本。因此，在较大的数据集上，每次都会看到不同的样本。当然，它仍然使用所有数据进行分析。添加一个参数来修复随机种子是相当容易的，但人们往往会抱怨参数太多

有关更适合异常值检测的穿梭机数据集变体，请参见本网站：

请注意，要正确读取文件，您将需要参数

-arff.externalid id-arff.classlabel outlier

，以便id列不用于分析，而outlier label列仅用作评估类。

Thx bro供您回复。我还有一个关于Elki的问题，因为对于50000个数据点，创建输出图需要的时间太长，所以我希望在一个文本文件中看到LOF的输出。在Elki中可能吗？是的，选择结果编写器而不是可视化工具。