如果我根本没有标记的数据和Python代码来获取相同的异常数据点,如何评估我的异常检测算法?

如果我根本没有标记的数据和Python代码来获取相同的异常数据点,如何评估我的异常检测算法?,python,machine-learning,outliers,anomaly-detection,Python,Machine Learning,Outliers,Anomaly Detection,我试图使用sklearn的隔离林算法在数据集中发现异常。但是,我根本没有任何标记的(异常/非异常)数据。我知道隔离林是一种无监督的算法,我们得到异常分数作为回报,在我们得到异常分数后,我们可以对异常分数进行排序,并根据截止值得到前n个socres。但是,如果模型预测的很好,我们如何评估它呢?还有,我们怎样才能做到这一点。此外,我还对如何从隔离林中获得分数感到困惑。因此,如果可能,同样的python实现将非常有用。我现在正在做这件事 clf = IsolationForest(n_esti

我试图使用sklearn的隔离林算法在数据集中发现异常。但是,我根本没有任何标记的(异常/非异常)数据。我知道隔离林是一种无监督的算法,我们得到异常分数作为回报,在我们得到异常分数后,我们可以对异常分数进行排序,并根据截止值得到前n个socres。但是,如果模型预测的很好,我们如何评估它呢?还有,我们怎样才能做到这一点。此外,我还对如何从隔离林中获得分数感到困惑。因此,如果可能,同样的python实现将非常有用。我现在正在做这件事

    clf = IsolationForest(n_estimators = 300, contamination = 0.10)
    clf.fit(df)
    scores_pred = clf.decision_function(df)
    print(len(scores_pred))
    print(len(df))
    df['scores'] = scores_pred
    print(df)`

验证的唯一方法是了解真相。因此,您需要标记的数据,或者自己进行目视检查,这基本上是动态标记…在这种情况下,评估指标如何?如果不是隔离林生成的异常分数,我还有其他选择吗?您可能想看看这个来进行适当的评估,您需要为验证和测试集标记一些数据。20个实例已经很有用了