Tree 为高维数据设计层次树_Tree_Hierarchy_Dimensions

Tree 为高维数据设计层次树

tree

Tree 为高维数据设计层次树,tree,hierarchy,dimensions,Tree,Hierarchy,Dimensions,给定一个一维随机数集，我们只需遍历该集，然后将数据向下推到树上。在一维中，这是非常简单的。我们可以简单地比较数据的值，并决定数据将在树上传播到哪里然而，对于更高的维度，距离开始变得模糊，更难决定哪些数据应该放在树下的哪个位置事实上，如果我们要设计一个包含一组高维向量（例如，128维SIFT特征）的层次树，那么我们如何决定每个n维向量中的哪个应该去哪个子树，等等？我们做的一些事情是什么？随机树 A是一种常用的分类或聚类技术以下是如何决定如何拆分树的每个节点：从128个SIFT维度中随机选

给定一个一维随机数集，我们只需遍历该集，然后将数据向下推到树上。在一维中，这是非常简单的。我们可以简单地比较数据的值，并决定数据将在树上传播到哪里

然而，对于更高的维度，距离开始变得模糊，更难决定哪些数据应该放在树下的哪个位置

事实上，如果我们要设计一个包含一组高维向量（例如，128维SIFT特征）的层次树，那么我们如何决定每个n维向量中的哪个应该去哪个子树，等等？我们做的一些事情是什么？

随机树 A是一种常用的分类或聚类技术

以下是如何决定如何拆分树的每个节点：

从128个SIFT维度中随机选择一个k（小的，比如5）
确定这k个维度中哪一个提供了数据的最佳分割

因此，每个节点都需要存储：

要使用的维度

应用于该维度的决策阈值

树叶将储存：

类预测，或关于在该叶节点结束的数据点的一些统计信息

什么是层次树，与树相对？实际上是一样的。我只想强调层次部分。我重新标记了它，因为这个问题不是特定于SIFT的，数据不是层次的，只有树是层次的。