Machine learning 异质值差度量（HVDM）_Machine Learning_Distance

Machine learning 异质值差度量（HVDM）

machine-learning

Machine learning 异质值差度量（HVDM）,machine-learning,distance,Machine Learning,Distance,我想问一下，是否有人知道一些异质值差度量（HVDM）距离的例子？另外，我想问，在R中是否有这样的度量的实现如果有人能提供一些有用的资源，我将不胜感激。我可以手动计算这个距离。这是一个非常复杂的主题，这无疑是你找不到示例的原因。关于您的问题，我担心的是，它非常笼统，通常这种机器学习/数据挖掘的给定实现或用例可能需要大量的算法调整以使其有效，因为数据的性质在某种程度上决定了如何最好地计算HVDM 一维欧氏距离显然可以通过D=a-b来计算。2D距离是毕达哥拉斯距离，因此D=SQRT（（a1-b1）^

我想问一下，是否有人知道一些异质值差度量（HVDM）距离的例子？另外，我想问，在R中是否有这样的度量的实现

如果有人能提供一些有用的资源，我将不胜感激。我可以手动计算这个距离。

这是一个非常复杂的主题，这无疑是你找不到示例的原因。关于您的问题，我担心的是，它非常笼统，通常这种机器学习/数据挖掘的给定实现或用例可能需要大量的算法调整以使其有效，因为数据的性质在某种程度上决定了如何最好地计算HVDM

一维欧氏距离显然可以通过D=a-b来计算。2D距离是毕达哥拉斯距离，因此D=SQRT（（a1-b1）^2+（a2-b2）^2），当有N维数据时，D=SQRT（（a1-b1）^2+（a2-b2）^2+…+（aN bN）^2）

所以，如果你比较两个数据集，a和b，与N个数值，你现在可以计算它们之间的距离

请注意，平方根在实际应用中可能是可选的，因为它会影响幅度，但这是一个调整/性能/优化问题。。。我不确定，但也许有些用例使用它会更好，有些不使用它会更好

既然你说你的数据集中有标称值，这就更有趣了，因为欧几里德距离对于标称值来说毫无意义。。。如何协调取决于数据，如果你能将数字数据分配给名词，这很好，因为你可以再次计算欧几里德距离（例如，香蕉={2,4,6}，苹果={4,2,2}，梨={3,3,5}，这些数字是形状、颜色、扭曲度等特征）

下一个问题是，因为你有名义和数字数据，这是根本不同的，你几乎肯定需要标准化名义和数字，这样就不会因为数据的性质而有不合理的权重。此外，您可能会分割每个数值数据集，并为每个数据集比较计算2个距离。。。同样，这是一个依赖于数据的决定，或者是在调整以获得良好甚至正常的性能时您将做出的决定。对归一化结果求和，或计算其欧几里德距离

归一化，最简单的意思是除以数据的整个范围，因此两个归一化的2位数据都将减少到0到1之间的值，从而消除不相关的事实，例如一个数据位的大小是另一个数据位的10000倍。如果数据可能存在或确实存在异常值，则替代的归一化技术可能适合您的数据。

HVDM的实现是特定于用例的。我想计算包含数值和标称值的两个数据集之间的距离。如果有一个实现或者这个metricsm的一些例子，我会非常感激。如果这确实有助于你编写你的HVDM（或者如果没有），请回来发表你自己的答案，为每个人的利益着想，即使你不得不稍微调整一下，使它更简单或者更通用。