Hadoop 通过分布式缓存访问Pig中的文件_Hadoop_Apache Pig_Mapper_Distributed Cache

Hadoop 通过分布式缓存访问Pig中的文件

hadoop apache-pig

Hadoop 通过分布式缓存访问Pig中的文件,hadoop,apache-pig,mapper,distributed-cache,Hadoop,Apache Pig,Mapper,Distributed Cache,关于这一点，我浏览了很多关于Stackoverflow的页面。但我仍然感到困惑。即使这是一个重复的问题或类似的问题，请回答我想在Pig中将一个文件与另一个文件进行比较，并且我希望其中一个文件位于分布式缓存中，以便每个映射器都在本地拥有它。如何在Pig中实现它。使用以下命令 set mapred.cache.files /new_file_location/new_file.txt#new_file.txt 发送到每个映射程序运行的位置。您能澄清一下“比较”是什么意思吗？使用加载自定义项（尽管

关于这一点，我浏览了很多关于Stackoverflow的页面。但我仍然感到困惑。即使这是一个重复的问题或类似的问题，请回答

我想在Pig中将一个文件与另一个文件进行比较，并且我希望其中一个文件位于分布式缓存中，以便每个映射器都在本地拥有它。如何在Pig中实现它。

使用以下命令

set mapred.cache.files /new_file_location/new_file.txt#new_file.txt

发送到每个映射程序运行的位置。

您能澄清一下“比较”是什么意思吗？使用加载自定义项（尽管您可能需要编写它）可能的重复项，例如我有一个文件a。我有一个新的文件B，它与a具有相同的结构，并且根据第一列更新了a的一些记录。所以我想的是，我将把旧文件放在缓存中，以便每个映射程序都在本地拥有它，并将其与新文件（在映射程序之间划分）进行比较，以便过滤出更新的记录。但是我不知道怎么做。请允许我说我想在Pig中的分布式缓存中添加一个文件并从中读取。我该怎么做？