Python 哪种距离测量最适合具有不同值范围的特征?
我给了一张不同特点的唱片。我总共有8个功能。有些是二进制的,但有些值的范围是0到1000万。我的大目标是对数据进行集群。目前,我仍在为这些数据寻找合适的距离度量Python 哪种距离测量最适合具有不同值范围的特征?,python,distance,euclidean-distance,standardized,Python,Distance,Euclidean Distance,Standardized,我给了一张不同特点的唱片。我总共有8个功能。有些是二进制的,但有些值的范围是0到1000万。我的大目标是对数据进行集群。目前,我仍在为这些数据寻找合适的距离度量 我知道欧几里得距离是最常用的距离度量。我已经尝试过了,并将它的非二进制数据规范化为0到1之间的范围。是否还有另一种距离度量可能更适合此数据?由于您对数据表示的内容几乎保持沉默,我可以毫不犹豫地建议使用log(欧几里德距离)。与正常的欧几里德距离相比,它有什么优势?二进制特征的问题会得到解决吗?由于您对数据表示的内容几乎一无所知,我可以毫
我知道欧几里得距离是最常用的距离度量。我已经尝试过了,并将它的非二进制数据规范化为0到1之间的范围。是否还有另一种距离度量可能更适合此数据?由于您对数据表示的内容几乎保持沉默,我可以毫不犹豫地建议使用
log(欧几里德距离)
。与正常的欧几里德距离相比,它有什么优势?二进制特征的问题会得到解决吗?由于您对数据表示的内容几乎一无所知,我可以毫不犹豫地推荐使用log(欧几里德距离)
。与正常的欧几里德距离相比,它有什么优势?二进制特性的问题会得到解决吗?