Hadoop Mahout K表示对输入文件格式进行聚类
我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id,后跟几百个值。我知道我需要提供一个向量输入,有人可以分享这个格式请 例如:Hadoop Mahout K表示对输入文件格式进行聚类,hadoop,format,mahout,k-means,Hadoop,Format,Mahout,K Means,我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id,后跟几百个值。我知道我需要提供一个向量输入,有人可以分享这个格式请 例如: User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count A 20 $30 Male Owns a home Y
User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A 20 $30 Male Owns a home Y 5
B 10 $400 Female Rents N 20
....
是否会是:
A:20,30,0,0,1,5
B:10400,1,1,0,20
我正在编码:
男性为0,女性为1和
以0的身份拥有房屋,以1的身份出租
Y为1,N为0
我是新来的,我也面临着同样的问题。我终于在mahout网站上找到了一个关于应用聚类k-means的例子,这也是我的目标。 基本上,你的文件应该是这种格式,我只是以0和1为例
1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...
您的每个记录都应该是我的一个用户,每个记录都是机器的输出。
为了运行K-means,我使用了网站中建议的命令,但如果我理解得很好,结果是一组质心,而不是一组聚类数据
请记住,输入必须存储在HDFS文件系统中,而输出则保存在本地文件系统中,以避免像我这样在查找输出文件时遇到困难:-
希望这能帮助你