Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 通过分布式缓存访问Pig中的文件_Hadoop_Apache Pig_Mapper_Distributed Cache - Fatal编程技术网

Hadoop 通过分布式缓存访问Pig中的文件

Hadoop 通过分布式缓存访问Pig中的文件,hadoop,apache-pig,mapper,distributed-cache,Hadoop,Apache Pig,Mapper,Distributed Cache,关于这一点,我浏览了很多关于Stackoverflow的页面。但我仍然感到困惑。即使这是一个重复的问题或类似的问题,请回答 我想在Pig中将一个文件与另一个文件进行比较,并且我希望其中一个文件位于分布式缓存中,以便每个映射器都在本地拥有它。如何在Pig中实现它。使用以下命令 set mapred.cache.files /new_file_location/new_file.txt#new_file.txt 发送到每个映射程序运行的位置。您能澄清一下“比较”是什么意思吗?使用加载自定义项(尽管

关于这一点,我浏览了很多关于Stackoverflow的页面。但我仍然感到困惑。即使这是一个重复的问题或类似的问题,请回答

我想在Pig中将一个文件与另一个文件进行比较,并且我希望其中一个文件位于分布式缓存中,以便每个映射器都在本地拥有它。如何在Pig中实现它。

使用以下命令

set mapred.cache.files /new_file_location/new_file.txt#new_file.txt

发送到每个映射程序运行的位置。

您能澄清一下“比较”是什么意思吗?使用加载自定义项(尽管您可能需要编写它)可能的重复项,例如我有一个文件a。我有一个新的文件B,它与a具有相同的结构,并且根据第一列更新了a的一些记录。所以我想的是,我将把旧文件放在缓存中,以便每个映射程序都在本地拥有它,并将其与新文件(在映射程序之间划分)进行比较,以便过滤出更新的记录。但是我不知道怎么做。请允许我说我想在Pig中的分布式缓存中添加一个文件并从中读取。我该怎么做?