Hadoop Mahout K表示对输入文件格式进行聚类

Hadoop Mahout K表示对输入文件格式进行聚类,hadoop,format,mahout,k-means,Hadoop,Format,Mahout,K Means,我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id,后跟几百个值。我知道我需要提供一个向量输入,有人可以分享这个格式请 例如: User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count A 20 $30 Male Owns a home Y

我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id,后跟几百个值。我知道我需要提供一个向量输入,有人可以分享这个格式请

例如:

User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A     20              $30        Male   Owns a home       Y                  5
B     10             $400      Female    Rents            N                 20
....
是否会是:

A:20,30,0,0,1,5

B:10400,1,1,0,20

我正在编码:

男性为0,女性为1和 以0的身份拥有房屋,以1的身份出租 Y为1,N为0
我是新来的,我也面临着同样的问题。我终于在mahout网站上找到了一个关于应用聚类k-means的例子,这也是我的目标。 基本上,你的文件应该是这种格式,我只是以0和1为例

1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...
您的每个记录都应该是我的一个用户,每个记录都是机器的输出。 为了运行K-means,我使用了网站中建议的命令,但如果我理解得很好,结果是一组质心,而不是一组聚类数据

请记住,输入必须存储在HDFS文件系统中,而输出则保存在本地文件系统中,以避免像我这样在查找输出文件时遇到困难:-

希望这能帮助你