在Hadoop中组合两个不同的文件

在Hadoop中组合两个不同的文件,hadoop,mapper,distributed-cache,Hadoop,Mapper,Distributed Cache,我在Hadoop中有一个非常具体的问题 我有两个文件userlist和*raw_data*。现在raw_数据是一个相当大的文件,userlist相对较小 我必须首先确定映射者的数量,我的用户列表必须分解为与映射者数量相等的部分。之后,它必须加载到分布式缓存中,并与userlist进行比较,执行一些分析,然后将其写入reducer 请建议 谢谢。我不明白您为什么要对用户列表文件进行分区。如果很小,则将整个userlist文件加载到分布式缓存中。然后,在map类的setup方法中,每个映射者都可以访

我在Hadoop中有一个非常具体的问题

我有两个文件userlist和*raw_data*。现在raw_数据是一个相当大的文件,userlist相对较小

我必须首先确定映射者的数量,我的用户列表必须分解为与映射者数量相等的部分。之后,它必须加载到分布式缓存中,并与userlist进行比较,执行一些分析,然后将其写入reducer

请建议


谢谢。

我不明白您为什么要对用户列表文件进行分区。如果很小,则将整个userlist文件加载到分布式缓存中。然后,在map类的setup方法中,每个映射者都可以访问整个userlist文件。此外,您可以找到映射程序的数量,并按照您喜欢的设置方法对其进行分区。

您是否意外编写了
“…它必须与userlist进行比较并执行一些分析”
,而不是
“…它必须与原始数据进行比较并执行一些分析”