在Hadoop中组合两个不同的文件_Hadoop_Mapper_Distributed Cache

在Hadoop中组合两个不同的文件

hadoop

在Hadoop中组合两个不同的文件,hadoop,mapper,distributed-cache,Hadoop,Mapper,Distributed Cache,我在Hadoop中有一个非常具体的问题我有两个文件userlist和*raw_data*。现在raw_数据是一个相当大的文件，userlist相对较小我必须首先确定映射者的数量，我的用户列表必须分解为与映射者数量相等的部分。之后，它必须加载到分布式缓存中，并与userlist进行比较，执行一些分析，然后将其写入reducer 请建议谢谢。我不明白您为什么要对用户列表文件进行分区。如果很小，则将整个userlist文件加载到分布式缓存中。然后，在map类的setup方法中，每个映射者都可以访

我在Hadoop中有一个非常具体的问题

我有两个文件userlist和*raw_data*。现在raw_数据是一个相当大的文件，userlist相对较小

我必须首先确定映射者的数量，我的用户列表必须分解为与映射者数量相等的部分。之后，它必须加载到分布式缓存中，并与userlist进行比较，执行一些分析，然后将其写入reducer

请建议

谢谢。

我不明白您为什么要对用户列表文件进行分区。如果很小，则将整个userlist文件加载到分布式缓存中。然后，在map类的setup方法中，每个映射者都可以访问整个userlist文件。此外，您可以找到映射程序的数量，并按照您喜欢的设置方法对其进行分区。

您是否意外编写了

“…它必须与userlist进行比较并执行一些分析”

，而不是

“…它必须与原始数据进行比较并执行一些分析”

？