Algorithm 数字线上数据点之间噪声距离测量的算法校正

Algorithm 数字线上数据点之间噪声距离测量的算法校正,algorithm,machine-learning,Algorithm,Machine Learning,我有一个应用程序,其中的数据点x可以映射到一条数字线。但是,我不知道它们在数字行上的值是多少。幸运的是,我不需要确切地知道它们的值是什么,我只需要知道点之间的距离是什么(即数字线上的0点是任意的,并且可以在不影响任何东西的情况下反映出来) 我输入了一组点之间的传递距离测量值D[I,j]。此外,距离测量是定向的(即D[i,j]=-D[j,i],其中D[i,j]>0表示x[i]在数字线上比x[j]更靠右) 第一个挑战:我没有D的所有值,但我可以控制获得哪些值 理想情况下,这不会是一个大问题,因为我可

我有一个应用程序,其中的数据点
x
可以映射到一条数字线。但是,我不知道它们在数字行上的值是多少。幸运的是,我不需要确切地知道它们的值是什么,我只需要知道点之间的距离是什么(即数字线上的0点是任意的,并且可以在不影响任何东西的情况下反映出来)

我输入了一组点之间的传递距离测量值
D[I,j]
。此外,距离测量是定向的(即
D[i,j]=-D[j,i]
,其中
D[i,j]>0
表示
x[i]
在数字线上比
x[j]
更靠右)

第一个挑战:我没有
D
的所有值,但我可以控制获得哪些值

理想情况下,这不会是一个大问题,因为我可以选择成对的
[I,j]
,这样
D
形成一个生成树(将其解释为图的邻接矩阵),然后是
x[I]
x[j]之间的距离
将是树上节点
i
j
之间行走的路径长度。不幸的是

第二个挑战:距离测量有噪声。在大多数情况下,噪音很小。然而,在极少数情况下,距离测量非常不准确

所以。这个问题。我想在数据点之间使用多个距离测量值来消除这些噪声距离测量值。以下是我的愿望清单,其中一些可能不可行:

  • 一种将
    x
    中的点映射到数字线(具有任意0点)的算法,以便在任何
    x[i]
    x[j]
    之间有一个单一的、明确的传递距离,并且清楚地知道哪一个在另一个的右边
  • 该算法适用于稀疏的图
    D
    ,但不适用于树。也许它的特性是任意两个节点之间至少有两条路径
  • 由于两个点之间通过
    D
    的多条路径代表不同的预期距离测量,因此使用一些损失函数,将投影中数据点间距离的差异最小化为
    D
    所暗示距离的某个积分值
  • 该算法使用一个损耗函数,对高值饱和。这将解决距离非常不准确的情况,但我担心这也会使问题变得非凸。L1处罚可能足够好了
我的第一个想法是研究多维尺度文献,因为它涉及到保持距离的嵌入,但我认为我的问题提出得不正确。MDS似乎假设每个点之间有一个单一的、明确的距离度量。那不是我的计划


我对人们能给我指出的任何文献或算法都感兴趣,无论是关于这个问题的某些方面,还是对于类似的问题,或者对于大致相同的问题。谢谢

> P> >在查看你的文章后,我认为一个有趣的方法是使用。p> 摘自《大书》,第748页:

集成学习方法的思想是从假设空间中选择一个集合,或者称为集成,并组合它们的预测。例如,在交叉验证期间,我们可能会生成二十个不同的决策树,并让它们对新示例的最佳分类进行投票

最广泛使用的集成方法是称为boosting算法的集成方法。这里有一个例子可以解释更多关于它们的信息(在AI书籍第748页之后的页面上也有解释)。基本上,您可以生成
K
新的距离度量加上当前的距离度量,将它们组合到集成分类器中,并获得它们预测的平均值(有时是加权平均值),以获得更精确的距离度量

需要注意的是,那些
K
指标(或假设)被认为是相互独立的,正如在同一引用的书籍和页面中所解释的:

但是,如果假设至少有一点不同,从而减少错误之间的相关性[换句话说:独立],那么集成学习可能非常有用

我建议你看看这本书,因为它包含了很多相关的信息,可以帮助你完成你的项目。希望这是有用的


注意:这种方法以前在计算机视觉和目标检测相关的项目中对我很有效(大多数情况下,数据也非常嘈杂)。在选择好的
K
假设后,它有助于减少分类错误

如果你能忍受L1范数,我认为你可以将其最小化为一个线性规划问题——这也告诉你这是一个凸问题,因此各种其他技术,如简单爬山和迭代加权最小二乘法,应该收敛到全局最小值

任意设置X0=0


<> P>对于每一对席席,你测量的XJ加Xi-XJ-DIJ是用多个相同的点中的一个来测量多个距离的D相关的误差吗?问这个问题的另一种方式是:D中的误差是来自错误的距离计算,还是来自对点实际位置的错误测量?例如,假设D[p,q]给出的值错误地将q2单位放置在p的右边太远。如果我们假设p固定在正确的位置,这是否意味着对于q右侧的点r,D[q,r]将有一个错误,包括将q2单元放置在r的左侧太近?我相信它们是独立的。在任何情况下,解决独立案件可能会更容易,而且会更容易