Tree 为高维数据设计层次树

Tree 为高维数据设计层次树,tree,hierarchy,dimensions,Tree,Hierarchy,Dimensions,给定一个一维随机数集,我们只需遍历该集,然后将数据向下推到树上。在一维中,这是非常简单的。我们可以简单地比较数据的值,并决定数据将在树上传播到哪里 然而,对于更高的维度,距离开始变得模糊,更难决定哪些数据应该放在树下的哪个位置 事实上,如果我们要设计一个包含一组高维向量(例如,128维SIFT特征)的层次树,那么我们如何决定每个n维向量中的哪个应该去哪个子树,等等?我们做的一些事情是什么?随机树 A是一种常用的分类或聚类技术 以下是如何决定如何拆分树的每个节点: 从128个SIFT维度中随机选

给定一个一维随机数集,我们只需遍历该集,然后将数据向下推到树上。在一维中,这是非常简单的。我们可以简单地比较数据的值,并决定数据将在树上传播到哪里

然而,对于更高的维度,距离开始变得模糊,更难决定哪些数据应该放在树下的哪个位置

事实上,如果我们要设计一个包含一组高维向量(例如,128维SIFT特征)的层次树,那么我们如何决定每个n维向量中的哪个应该去哪个子树,等等?我们做的一些事情是什么?

随机树 A是一种常用的分类或聚类技术

以下是如何决定如何拆分树的每个节点:

  • 从128个SIFT维度中随机选择一个k(小的,比如5)
  • 确定这k个维度中哪一个提供了数据的最佳分割
因此,每个节点都需要存储:

  • 要使用的维度
  • 应用于该维度的决策阈值
  • 树叶将储存:

    • 类预测,或关于在该叶节点结束的数据点的一些统计信息

    什么是层次树,与树相对?实际上是一样的。我只想强调层次部分。我重新标记了它,因为这个问题不是特定于SIFT的,数据不是层次的,只有树是层次的。