Algorithm 在K-均值聚类中,我是否应将行业分类代码视为双数据类型?
由于K-means无法直接处理分类变量,我想知道,将所有经济活动的国际标准行业分类或ISIC转换为双数据类型以使用K-means以及其他金融和交易数据对其进行聚类是否正确?或者我应该尝试其他技术,比如一个热编码Algorithm 在K-均值聚类中,我是否应将行业分类代码视为双数据类型?,algorithm,cluster-analysis,k-means,Algorithm,Cluster Analysis,K Means,由于K-means无法直接处理分类变量,我想知道,将所有经济活动的国际标准行业分类或ISIC转换为双数据类型以使用K-means以及其他金融和交易数据对其进行聚类是否正确?或者我应该尝试其他技术,比如一个热编码 最大的假设是ISIC代码是分类变量而非数字变量,因为代码“2930”指的是“机动车零部件和附件的制造”,而不是货币、千克、英尺等。,但是这些代码中有一种模式,因为它们不是随机分配的,并且具有层次结构,例如2930属于C部分“制造”和第29部分“机动车辆、拖车和半拖车的制造”。当您想要使用
最大的假设是ISIC代码是分类变量而非数字变量,因为代码“2930”指的是“机动车零部件和附件的制造”,而不是货币、千克、英尺等。,但是这些代码中有一种模式,因为它们不是随机分配的,并且具有层次结构,例如2930属于C部分“制造”和第29部分“机动车辆、拖车和半拖车的制造”。当您想要使用标准K-均值时,您需要数据具有几何意义。因此,如果代码到几何空间的映射是线性的,则不会得到任何正确的聚类结果。因为代码的距离不在其值中投影。例如,code
2930
与code2931
一样接近code2929
。因此,您需要使用标准k-均值聚类将分类空间非线性映射到几何空间
一种解决方案是,如果您有足够的数据可以同时出现这些代码,那么可以使用类似于word to vec(用于对单词进行矢量化)的机器学习技术。聚类就是关于距离测量的 将数值变量离散化为分类变量是部分解决方案。如前所述,基本问题是如何测量离散化变量与其他离散化变量和数值变量之间的距离 在文献中,有几种处理混合数据的无监督算法。看看k-Prototype算法和Gower距离 包装中给出了R中的k原型。R中的Gower距离在
集群
包中的函数菊花
中给出。如果使用Python,您可以查看以下内容