Language agnostic 混合属性数据集的距离函数

Language agnostic 混合属性数据集的距离函数,language-agnostic,attributes,dataset,cluster-analysis,mixed,Language Agnostic,Attributes,Dataset,Cluster Analysis,Mixed,是否有计算混合属性数据集之间距离的函数。例如,如何计算距离D=d1-d2?其中d1(100,TCP,1480)和d2(200,ICMP,1650)如果您碰巧使用了可怕的KDDCup 1999数据集,请阅读以下答案: -数据集是无用的,所以不要再使用它了 您可以尝试距离,例如高尔距离。但最有可能的是,它们对netflow数据没有任何用处。您应该尝试合并领域知识:回答两个Netflow何时相似的问题,然后将其放入等式中;而不是试图找到一个神奇的方程式 Gower或任何其他股票距离函数不起作用的原因之

是否有计算混合属性数据集之间距离的函数。例如,如何计算距离
D=d1-d2
?其中
d1(100,TCP,1480)
d2(200,ICMP,1650)
如果您碰巧使用了可怕的KDDCup 1999数据集,请阅读以下答案: -数据集是无用的,所以不要再使用它了

您可以尝试距离,例如高尔距离。但最有可能的是,它们对netflow数据没有任何用处。您应该尝试合并领域知识:回答两个Netflow何时相似的问题,然后将其放入等式中;而不是试图找到一个神奇的方程式


Gower或任何其他股票距离函数不起作用的原因之一是网络数据具有非常偏斜的分布,并且通常没有负值。它不是一个真正的欧几里德空间。

在工程和科学中,我们使用无量纲数来描述情况,并使用相关的特征尺度来创建这些无量纲数。例如,如果你在检查湍流,你可能会被明显众多的变量弄糊涂。但湍流流动主要是由动量与粘度的相互作用所决定的。可以看出,一个系统实际上只有几个关键的特征度量,相互作用可以用比率表示。该比率是无量纲的(称为雷诺数)。大值表示湍流,低值表示层流(平滑)。因此,这个数字是一种距离函数,表示我们离不可扰动的平滑流动有多远。在相对论中,空间和时间上的距离可以表示为单个距离,方法是将时间差乘以光速,将其转换为一个长度,然后将该长度视为3个空间维度,因为光速是该情况下的一个特征速度标度

所以,你应该使用一些领域知识来做同样的事情

然而,你也应该停下来问问自己距离是否是一个有意义的概念。距离是一种按比例衡量的尺度:我们可以有意义地说,一个距离是另一个距离的两倍。如果你所考虑的分布不是按比例衡量的,那么谈论距离就是胡说八道。我注意到您的数据包括“TCP”和“ICMP”,它们是无序的离散值。对于数据集来说,距离可能只是一个毫无意义的概念