Algorithm 在K-均值聚类中，我是否应将行业分类代码视为双数据类型？_Algorithm_Cluster Analysis_K Means

Algorithm 在K-均值聚类中，我是否应将行业分类代码视为双数据类型？

algorithm

Algorithm 在K-均值聚类中，我是否应将行业分类代码视为双数据类型？,algorithm,cluster-analysis,k-means,Algorithm,Cluster Analysis,K Means,由于K-means无法直接处理分类变量，我想知道，将所有经济活动的国际标准行业分类或ISIC转换为双数据类型以使用K-means以及其他金融和交易数据对其进行聚类是否正确？或者我应该尝试其他技术，比如一个热编码最大的假设是ISIC代码是分类变量而非数字变量，因为代码“2930”指的是“机动车零部件和附件的制造”，而不是货币、千克、英尺等。，但是这些代码中有一种模式，因为它们不是随机分配的，并且具有层次结构，例如2930属于C部分“制造”和第29部分“机动车辆、拖车和半拖车的制造”。当您想要使用

由于K-means无法直接处理分类变量，我想知道，将所有经济活动的国际标准行业分类或ISIC转换为双数据类型以使用K-means以及其他金融和交易数据对其进行聚类是否正确？或者我应该尝试其他技术，比如一个热编码

最大的假设是ISIC代码是分类变量而非数字变量，因为代码“2930”指的是“机动车零部件和附件的制造”，而不是货币、千克、英尺等。，但是这些代码中有一种模式，因为它们不是随机分配的，并且具有层次结构，例如2930属于C部分“制造”和第29部分“机动车辆、拖车和半拖车的制造”。

当您想要使用标准K-均值时，您需要数据具有几何意义。因此，如果代码到几何空间的映射是线性的，则不会得到任何正确的聚类结果。因为代码的距离不在其值中投影。例如，code

与code

一样接近code

。因此，您需要使用标准k-均值聚类将分类空间非线性映射到几何空间

一种解决方案是，如果您有足够的数据可以同时出现这些代码，那么可以使用类似于word to vec（用于对单词进行矢量化）的机器学习技术。

聚类就是关于距离测量的

将数值变量离散化为分类变量是部分解决方案。如前所述，基本问题是如何测量离散化变量与其他离散化变量和数值变量之间的距离

在文献中，有几种处理混合数据的无监督算法。看看k-Prototype算法和Gower距离

包装中给出了R中的k原型。R中的Gower距离在

集群

包中的函数

菊花

中给出。如果使用Python，您可以查看以下内容

黄志强（1997）。使用混合数值和分类值对大型数据集进行聚类。第一届亚太知识发现和数据挖掘会议论文集（PAKDD）

高尔，J.C.（1971）。一般相似系数及其某些性质。生物识别，857-871

K-均值设计用于最小化平方和

最小化平方和对你的问题有意义吗？可能不会

虽然29、2903和2930应该都是相关的，但2899可能与2900没有太大关系。因此，最小二乘法将产生不期望的结果

该方法实际上是为相同类型和规模的连续变量设计的。一个热编码的变量所引起的问题比它们所解决的问题还要多——这是一个使函数“运行”的幼稚的黑客行为，但是结果在统计上是有问题的

试着弄清楚他应该做什么。这里可能不是最小二乘法