向Hadoop分布式缓存添加文件
在mapper类中,我需要访问一堆文件。我的假设是,如果我将这些文件打包到我的作业jar文件中,我就不需要将它们放在DistributedCache中,因为jar文件作为一个整体复制到所有节点,并且当提取这些文件时,这些文件将在那里?我的假设正确吗?向Hadoop分布式缓存添加文件,hadoop,mapreduce,hadoop2,Hadoop,Mapreduce,Hadoop2,在mapper类中,我需要访问一堆文件。我的假设是,如果我将这些文件打包到我的作业jar文件中,我就不需要将它们放在DistributedCache中,因为jar文件作为一个整体复制到所有节点,并且当提取这些文件时,这些文件将在那里?我的假设正确吗? 如果没有,是否可以将这些文件与我的jar文件一起发送,而不将它们单独复制到HDFS?您可以将它们包含在您的jar中。根据大小的不同,您将有网络带宽使用情况 使用分布式缓存也是一个很好的选择,可以发送文件、zip文件或jar文件。运行hadoopja
如果没有,是否可以将这些文件与我的jar文件一起发送,而不将它们单独复制到HDFS?您可以将它们包含在您的jar中。根据大小的不同,您将有网络带宽使用情况
使用分布式缓存也是一个很好的选择,可以发送文件、zip文件或jar文件。运行hadoopjar命令时,可以分别使用每个选项。这些文件将被移动到任务节点,并可供应用程序jar使用。移动jar文件(map-reduce依赖jar)的一个区别是,它们将添加到类路径中,以便mp-reduce jar运行。对于其他文件和zip文件,它们只会被移动到任务节点。您可以将它们包含在jar中。根据大小的不同,您将有网络带宽使用情况 使用分布式缓存也是一个很好的选择,可以发送文件、zip文件或jar文件。运行hadoopjar命令时,可以分别使用每个选项。这些文件将被移动到任务节点,并可供应用程序jar使用。移动jar文件(map-reduce依赖jar)的一个区别是,它们将添加到类路径中,以便mp-reduce jar运行。对于其他文件(如文件和zip文件),它们将被移动到任务节点