Hadoop Mahout K表示对输入文件格式进行聚类_Hadoop_Format_Mahout_K Means

Hadoop Mahout K表示对输入文件格式进行聚类

hadoop

Hadoop Mahout K表示对输入文件格式进行聚类,hadoop,format,mahout,k-means,Hadoop,Format,Mahout,K Means,我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id，后跟几百个值。我知道我需要提供一个向量输入，有人可以分享这个格式请例如： User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count A 20 $30 Male Owns a home Y

我正在尝试使用Mahout来运行K均值聚类算法。我不知道如何格式化输入文件。表中的基本数据是一个用户id，后跟几百个值。我知道我需要提供一个向量输入，有人可以分享这个格式请

例如：

User Nbr_of_tweets Total_spend Gender Home_ownership email_on_file transaction_count
A     20              $30        Male   Owns a home       Y                  5
B     10             $400      Female    Rents            N                 20
....

是否会是：

A:20,30,0,0,1,5

B:10400,1,1,0,20

我正在编码：

男性为0，女性为1和以0的身份拥有房屋，以1的身份出租 Y为1，N为0

我是新来的，我也面临着同样的问题。我终于在mahout网站上找到了一个关于应用聚类k-means的例子，这也是我的目标。基本上，你的文件应该是这种格式，我只是以0和1为例

1 0 1 0 0 1
0 1 1 1 1 1
0 1 1 0 1 0
...

您的每个记录都应该是我的一个用户，每个记录都是机器的输出。为了运行K-means，我使用了网站中建议的命令，但如果我理解得很好，结果是一组质心，而不是一组聚类数据

请记住，输入必须存储在HDFS文件系统中，而输出则保存在本地文件系统中，以避免像我这样在查找输出文件时遇到困难：-

希望这能帮助你