Algorithm 多维数据的聚类算法
我是一个数据挖掘新手,需要一些关于高维数据集的帮助(子集如下所示)。它实际上有20个维度和数千行。 问:我们如何对相似的(团队)进行聚类,以及是否可以从这些数据中计算出任何相似性度量,我的数据是否需要任何标准化过程,因为每个值都不同于其他值。我已经研究过余弦相似性和欧几里得、雅卡方法,但不确定如何解决这个问题 此数组中的数字表示每个团队包括一些学院只有4个、12个或没有0个完成特定工作Algorithm 多维数据的聚类算法,algorithm,dataset,cluster-analysis,data-mining,data-analysis,Algorithm,Dataset,Cluster Analysis,Data Mining,Data Analysis,我是一个数据挖掘新手,需要一些关于高维数据集的帮助(子集如下所示)。它实际上有20个维度和数千行。 问:我们如何对相似的(团队)进行聚类,以及是否可以从这些数据中计算出任何相似性度量,我的数据是否需要任何标准化过程,因为每个值都不同于其他值。我已经研究过余弦相似性和欧几里得、雅卡方法,但不确定如何解决这个问题 此数组中的数字表示每个团队包括一些学院只有4个、12个或没有0个完成特定工作 number of faculties for each team are differ from other
number of faculties for each team are differ from others
team1= 50 faculties
team2= 53
team3= 46 .. etc.
" type of job"
"ROW" "CPU" "PRT" "CR" "CV" "TR" "PO" "ME" "HC"
team1 4 12 15 9 2 2 0 17
team2 13 0 0 22 7 5 1 1
team3 10 1 12 3 1 0 3 0
.....
teamN ...etc..
请不要重复本质上相同的问题。相反,考虑改进你以前的问题,使之更加集中:我的问题是:是否有必要规范这些价值观,处理这类数据的最佳相似性度量是什么?然后是聚类高维数据的最佳算法。根据这些数据,我在应用归一化后寻找最佳相似性度量欧几里德和余弦,以避免随机分布,并使数据在相似的尺度内。问题是什么是最好的聚类算法可以处理这类数据?你认为最好的算法可以处理这类数字数据吗?为了测试它,测试是如此困难,至少3或5个可能对我有帮助,谢谢,我会尝试一下,但你们认为这些值是否需要在应用相似性度量和聚类算法之前进行规范化处理,这些值是随机出现的,这是我的最后一个问题?