Machine learning 异质值差度量(HVDM)

Machine learning 异质值差度量(HVDM),machine-learning,distance,Machine Learning,Distance,我想问一下,是否有人知道一些异质值差度量(HVDM)距离的例子?另外,我想问,在R中是否有这样的度量的实现 如果有人能提供一些有用的资源,我将不胜感激。我可以手动计算这个距离。这是一个非常复杂的主题,这无疑是你找不到示例的原因。关于您的问题,我担心的是,它非常笼统,通常这种机器学习/数据挖掘的给定实现或用例可能需要大量的算法调整以使其有效,因为数据的性质在某种程度上决定了如何最好地计算HVDM 一维欧氏距离显然可以通过D=a-b来计算。2D距离是毕达哥拉斯距离,因此D=SQRT((a1-b1)^

我想问一下,是否有人知道一些异质值差度量(HVDM)距离的例子?另外,我想问,在R中是否有这样的度量的实现


如果有人能提供一些有用的资源,我将不胜感激。我可以手动计算这个距离。

这是一个非常复杂的主题,这无疑是你找不到示例的原因。关于您的问题,我担心的是,它非常笼统,通常这种机器学习/数据挖掘的给定实现或用例可能需要大量的算法调整以使其有效,因为数据的性质在某种程度上决定了如何最好地计算HVDM

一维欧氏距离显然可以通过D=a-b来计算。2D距离是毕达哥拉斯距离,因此D=SQRT((a1-b1)^2+(a2-b2)^2),当有N维数据时,D=SQRT((a1-b1)^2+(a2-b2)^2+…+(aN bN)^2)

所以,如果你比较两个数据集,a和b,与N个数值,你现在可以计算它们之间的距离

请注意,平方根在实际应用中可能是可选的,因为它会影响幅度,但这是一个调整/性能/优化问题。。。我不确定,但也许有些用例使用它会更好,有些不使用它会更好

既然你说你的数据集中有标称值,这就更有趣了,因为欧几里德距离对于标称值来说毫无意义。。。如何协调取决于数据,如果你能将数字数据分配给名词,这很好,因为你可以再次计算欧几里德距离(例如,香蕉={2,4,6},苹果={4,2,2},梨={3,3,5},这些数字是形状、颜色、扭曲度等特征)

下一个问题是,因为你有名义和数字数据,这是根本不同的,你几乎肯定需要标准化名义和数字,这样就不会因为数据的性质而有不合理的权重。此外,您可能会分割每个数值数据集,并为每个数据集比较计算2个距离。。。同样,这是一个依赖于数据的决定,或者是在调整以获得良好甚至正常的性能时您将做出的决定。对归一化结果求和,或计算其欧几里德距离


归一化,最简单的意思是除以数据的整个范围,因此两个归一化的2位数据都将减少到0到1之间的值,从而消除不相关的事实,例如一个数据位的大小是另一个数据位的10000倍。如果数据可能存在或确实存在异常值,则替代的归一化技术可能适合您的数据。

HVDM的实现是特定于用例的。我想计算包含数值和标称值的两个数据集之间的距离。如果有一个实现或者这个metricsm的一些例子,我会非常感激。如果这确实有助于你编写你的HVDM(或者如果没有),请回来发表你自己的答案,为每个人的利益着想,即使你不得不稍微调整一下,使它更简单或者更通用。