Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 多维数据的聚类算法_Algorithm_Dataset_Cluster Analysis_Data Mining_Data Analysis - Fatal编程技术网

Algorithm 多维数据的聚类算法

Algorithm 多维数据的聚类算法,algorithm,dataset,cluster-analysis,data-mining,data-analysis,Algorithm,Dataset,Cluster Analysis,Data Mining,Data Analysis,我是一个数据挖掘新手,需要一些关于高维数据集的帮助(子集如下所示)。它实际上有20个维度和数千行。 问:我们如何对相似的(团队)进行聚类,以及是否可以从这些数据中计算出任何相似性度量,我的数据是否需要任何标准化过程,因为每个值都不同于其他值。我已经研究过余弦相似性和欧几里得、雅卡方法,但不确定如何解决这个问题 此数组中的数字表示每个团队包括一些学院只有4个、12个或没有0个完成特定工作 number of faculties for each team are differ from other

我是一个数据挖掘新手,需要一些关于高维数据集的帮助(子集如下所示)。它实际上有20个维度和数千行。 问:我们如何对相似的(团队)进行聚类,以及是否可以从这些数据中计算出任何相似性度量,我的数据是否需要任何标准化过程,因为每个值都不同于其他值。我已经研究过余弦相似性和欧几里得、雅卡方法,但不确定如何解决这个问题

此数组中的数字表示每个团队包括一些学院只有4个、12个或没有0个完成特定工作

number of faculties for each team are differ from others 
team1= 50 faculties
team2= 53  
team3= 46 .. etc. 

                                " type of job"
 "ROW"   "CPU"   "PRT"   "CR"    "CV"      "TR"    "PO"    "ME"    "HC"      
 team1     4      12      15      9          2      2       0        17 
 team2    13       0      0       22         7      5       1        1 
 team3    10       1      12      3          1      0       3        0
  .....
 teamN ...etc.. 

请不要重复本质上相同的问题。相反,考虑改进你以前的问题,使之更加集中:我的问题是:是否有必要规范这些价值观,处理这类数据的最佳相似性度量是什么?然后是聚类高维数据的最佳算法。根据这些数据,我在应用归一化后寻找最佳相似性度量欧几里德和余弦,以避免随机分布,并使数据在相似的尺度内。问题是什么是最好的聚类算法可以处理这类数据?你认为最好的算法可以处理这类数字数据吗?为了测试它,测试是如此困难,至少3或5个可能对我有帮助,谢谢,我会尝试一下,但你们认为这些值是否需要在应用相似性度量和聚类算法之前进行规范化处理,这些值是随机出现的,这是我的最后一个问题?