Sorting 连接和排序数据集Hadoop_Sorting_Hadoop_Merge_Mapreduce_Dataset

Sorting 连接和排序数据集Hadoop

sorting hadoop merge mapreduce

Sorting 连接和排序数据集Hadoop,sorting,hadoop,merge,mapreduce,dataset,Sorting,Hadoop,Merge,Mapreduce,Dataset,我正在使用mapreduce开发Hadoop项目（我有两个数据集KDD和DARPAA），我正在寻找能够将这些数据集分组和排序到一个文件中的算法这两个数据集具有以下格式： @attribute 'urgent' real -------------- @Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0 我想将这两个数据集合并到一个文件中，首先我想检查两个文件中是否有任何重复并删除重复的行，其次我想将@Attribute和@Data组合在一起）

我正在使用mapreduce开发Hadoop项目（我有两个数据集KDD和DARPAA），我正在寻找能够将这些数据集分组和排序到一个文件中的算法

这两个数据集具有以下格式：

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想将这两个数据集合并到一个文件中，首先我想检查两个文件中是否有任何重复并删除重复的行，其次我想将@Attribute和@Data组合在一起）

必须编写两个映射程序，一个用于KDD，另一个用于DARPAA

获取KDD和DARPAA通用的值

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送

根据相应的映射器，使用@data或@attribute追加输入

Reduce Side:

迭代映射器的输出键

比较附加字符串（KDD或DARPAA）附带的值然后执行必要的逻辑。

您可以在同一个作业中为不同的映射器类提供多个输入选项，然后我们可以使用一个简化程序，其中来自两个映射器的两个文件可以合并。谢谢，但我已经找到了合并这些数据集的算法，但我喜欢按正确的顺序对它们进行排序’属性包含两个属性2文件'@data包含2个数据集的数据A，如果你能帮助我如何检查重复数据并删除它们你可以在代码中使用hashmap删除重复数据显示我可以对数据进行排序吗？数据将在洗牌和排序阶段从映射器移动到还原器时进行排序…谢谢你的重播，但我没有找到正确的答案@data&@@attribute每个文件都有自己的数据和属性，如何修复thix？你能给我发一个有2个映射器的算法，它能做和我的问题一样的工作吗？谢天谢地，兄弟会的意思是KDD和DARPAA之间的共同点？。。。。或者，如果这两者之间没有共同点，您只想在另一个的下面附加一个吗？darpaa KDD相同文件结构之间的共同点@@attribute------------------------@@data---------------我只想将它们属性和数据分组在一起！我发现算法融合了这两个文件，但输出文件不是结构化的。@@attribute'class'{'normal'，'normal'}-------------------------------------------------------------------------@@data 0，tcp，ftp\u data，SF，491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0.00,0.00,0.00,0.00,0.00150,25,0.17,0.00,0.00,0.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,，正常@@属性类{NOTSSH，SSH}------------------------------------------------------@@data 73,73,73,0160160,0,0,0,0,0,0,0595,17,1,73,1160，NOTSSHI希望有这样的输出文件@@attribute'class'{'normal'，normal'，normal'}@@attribute class{NOTSSH，SSH}@@数据0，tcp，ftp_数据，SF，491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00，‌1.00,0.00,0.00150,25,0.17,0.03,0.17,0.00,0.00,0.05,0.00，正常值73,73,73,0160,0,0,0,0,0,0,0595,17,1,73,1160，非SSH

Reduce Side: