Algorithm 频率数据应该使用哪种聚类算法?

Algorithm 频率数据应该使用哪种聚类算法?,algorithm,machine-learning,cluster-analysis,weka,Algorithm,Machine Learning,Cluster Analysis,Weka,我试图分析如下的旅游数据: @DATA 2013-1-01,01,1,0,1,3,3,329.2172000000005 2013-1-01,01,1,0,1,3,4,1399.7826299999915 2013-1-01,01,1,1,2,3,2,10.50964 其中最后一个属性是满足所有其他条件(酒店、特定城市、特定夜数…)的旅客人数 我正在尝试创建游客群来细分数据并获得有意义的见解,而且我对机器学习有点陌生,所以我在这里有些挣扎。经过一些研究,由于我不知道数据应该分成多少个簇,我发现

我试图分析如下的旅游数据:

@DATA
2013-1-01,01,1,0,1,3,3,329.2172000000005
2013-1-01,01,1,0,1,3,4,1399.7826299999915
2013-1-01,01,1,1,2,3,2,10.50964
其中最后一个属性是满足所有其他条件(酒店、特定城市、特定夜数…)的旅客人数

我正在尝试创建游客群来细分数据并获得有意义的见解,而且我对机器学习有点陌生,所以我在这里有些挣扎。经过一些研究,由于我不知道数据应该分成多少个簇,我发现一个好的方法是使用自组织映射来获得簇的数量,然后使用K-means或EV之类的方法。所以我使用了WEKA,并对数据应用了SOM,但它看起来像是通过所有属性(包括最后一个属性)形成集群分组,而不是使用它进行加权


我认为一个可能的解决方案是为frequency属性中的每个单元创建一行数据,但这会使文件太大。有什么想法吗?

大多数实现都不支持加权。这样做是可能的,但您需要更改代码

因为最后一列不是整数,所以不能只重复行

将每一行视为一个集群有什么不对

但你的其他属性似乎是某种类别。这样的数据往往会非常糟糕地聚集在一起。可能有1个差异,2个差异,都是不同的。这对于有意义的集群来说太粗糙了


您还有一个时间戳,因此您可能对随时间的变化感兴趣?

我的属性是:属性日期“yyyyMMdd”属性目的地数字属性国家原产地数字属性住房数字属性数字灯光数字属性含义交通数字属性游客类型数字属性游客数字我不能将一行作为一个集群,因为就2013年而言,我有超过400000行。对于日期,我将其更改为数字以用作其他属性。那么,对于这些数据,您建议采用哪种方法?谢谢你的回答。我也可以修改一些代码。仅仅因为arff说“数字”并不意味着数字处理是合适的。例如,不应将Likert量表视为此类。也不应该,例如,邮政编码或月份。仅仅因为我们有1到12个月,并不意味着计算这些值的平均值是合理的。我只是使用weka date to numeric函数来测试通过将日期添加为算法的额外属性会发生什么(因为weka的聚类算法默认不接受日期格式)也许可以在数据上应用J48之类的树算法?(调整它,使树非常小)-有/没有日期属性