Sorting 连接和排序数据集Hadoop

Sorting 连接和排序数据集Hadoop,sorting,hadoop,merge,mapreduce,dataset,Sorting,Hadoop,Merge,Mapreduce,Dataset,我正在使用mapreduce开发Hadoop项目(我有两个数据集KDD和DARPAA),我正在寻找能够将这些数据集分组和排序到一个文件中的算法 这两个数据集具有以下格式: @attribute 'urgent' real -------------- @Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0 我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有任何重复并删除重复的行,其次我想将@Attribute和@Data组合在一起)

我正在使用mapreduce开发Hadoop项目(我有两个数据集KDD和DARPAA),我正在寻找能够将这些数据集分组和排序到一个文件中的算法

这两个数据集具有以下格式:

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0
我想将这两个数据集合并到一个文件中,首先我想检查两个文件中是否有任何重复并删除重复的行,其次我想将@Attribute和@Data组合在一起)

必须编写两个映射程序,一个用于KDD,另一个用于DARPAA

获取KDD和DARPAA通用的值

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送

根据相应的映射器,使用@data或@attribute追加输入

Reduce Side:
迭代映射器的输出键


比较附加字符串(KDD或DARPAA)附带的值然后执行必要的逻辑。

您可以在同一个作业中为不同的映射器类提供多个输入选项,然后我们可以使用一个简化程序,其中来自两个映射器的两个文件可以合并。谢谢,但我已经找到了合并这些数据集的算法,但我喜欢按正确的顺序对它们进行排序’属性包含两个属性2文件'@data包含2个数据集的数据A,如果你能帮助我如何检查重复数据并删除它们你可以在代码中使用hashmap删除重复数据显示我可以对数据进行排序吗?数据将在洗牌和排序阶段从映射器移动到还原器时进行排序…谢谢你的重播,但我没有找到正确的答案@data&@@attribute每个文件都有自己的数据和属性,如何修复thix?你能给我发一个有2个映射器的算法,它能做和我的问题一样的工作吗?谢天谢地,兄弟会的意思是KDD和DARPAA之间的共同点?。。。。或者,如果这两者之间没有共同点,您只想在另一个的下面附加一个吗?darpaa KDD相同文件结构之间的共同点@@attribute------------------------@@data---------------我只想将它们属性和数据分组在一起!我发现算法融合了这两个文件,但输出文件不是结构化的。@@attribute'class'{'normal','normal'}-------------------------------------------------------------------------@@data 0,tcp,ftp\u data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0.00,0.00,0.00,0.00,0.00150,25,0.17,0.00,0.00,0.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,,正常@@属性类{NOTSSH,SSH}------------------------------------------------------@@data 73,73,73,0160160,0,0,0,0,0,0,0595,17,1,73,1160,NOTSSHI希望有这样的输出文件@@attribute'class'{'normal',normal',normal'}@@attribute class{NOTSSH,SSH}@@数据0,tcp,ftp_数据,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,‌​1.00,0.00,0.00150,25,0.17,0.03,0.17,0.00,0.00,0.05,0.00,正常值73,73,73,0160,0,0,0,0,0,0,0595,17,1,73,1160,非SSH
Reduce Side: