Machine learning 隔离林背景下的基估计意义

Machine learning 隔离林背景下的基估计意义,machine-learning,scikit-learn,ensemble-learning,Machine Learning,Scikit Learn,Ensemble Learning,我正在努力理解“基础估计器”在孤立森林中的含义 scikit学习中隔离林方法的一个参数是n_估计量;其说明如下: 集合中基估计量的数目 我试着解释Sklearn上的文档以及谷歌和Youtube上的东西 理解这个术语,但运气不好。有人能解释一下IF的含义吗?tl;dr:它是一种特殊的决策树,称为隔离树(iTree): 我们在本文中表明,树结构可以有效地构造隔离每个实例。[…]树的这种隔离特性构成了我们检测异常的方法的基础,我们称之为树隔离树或iTree 提出的方法称为隔离林或iForest,它为给

我正在努力理解“基础估计器”在孤立森林中的含义

scikit学习中隔离林方法的一个参数是
n_估计量
;其说明如下:

集合中基估计量的数目

我试着解释Sklearn上的文档以及谷歌和Youtube上的东西
理解这个术语,但运气不好。有人能解释一下IF的含义吗?

tl;dr:它是一种特殊的决策树,称为隔离树(iTree):

我们在本文中表明,树结构可以有效地构造隔离每个实例。[…]树的这种隔离特性构成了我们检测异常的方法的基础,我们称之为树隔离树或iTree

提出的方法称为隔离林或iForest,它为给定的数据集构建一个ITree集合[…]


所有集合方法(隔离林)都由基估计量组成(即它们正是基估计量的集合);从:

集成方法的目标是结合使用给定学习算法构建的多个基本估计器的预测,以提高单个估计器的通用性/鲁棒性

例如,在(可以说是名称隔离林的灵感来源)中,此基础估计器是一个简单的决策树:

n_估计值:int,默认值=100

森林中树木的数量

类似的算法(尽管scikit learn文档称其为“提升阶段”,但它们仍然是决策树)等

在所有这些算法中,基估计器是固定的(尽管其特定参数可以随集合参数的设置而变化)。还有另一类集成方法,其中用作基估计量的精确模型也可以由相应的参数
基_估计量
设置;例如,以下是:

基本估值器:对象,默认值=None

用于拟合数据集随机子集的基估计量。如果没有,则基估计量是决策树

以及:

基本估值器:对象,默认值=None

用于构建增强系综的基估计器。[…]如果没有,则基础估计器是
DecisionTreeClassifier(max_depth=1)

从历史上讲,第一批集成是使用不同版本的决策树构建的,可以说,直到今天,决策树(或变体,如iTrees)几乎完全用于此类集成;引用我的另一个答案:

Adaboost(和类似的集成方法)是使用决策树作为基本分类器(更具体地说,是决策树桩,即深度仅为1的DTs)构思的;今天,如果不明确指定
base\u分类器
参数,它会假定值为
DecisionTreeClassifier(max\u depth=1)
,这是有充分理由的。DTs适用于此类融合,因为它们本质上是不稳定的分类器,而SVM则不是这样,因此后者在用作基本分类器时不会提供太多