ApachePig-如何维护分布式查找表以供python UDF访问?

ApachePig-如何维护分布式查找表以供python UDF访问?,python,hadoop,mapreduce,apache-pig,Python,Hadoop,Mapreduce,Apache Pig,在我的Pig脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名。我用这个映射从数据库创建了一个文本文件(~10k条记录)。但我不确定如何将这个文本文件分发到pig中,并在运行时访问它们。请帮忙 这是使用Pig算法的完美用例。您可以将查找表作为Pig关系加载,并根据实际数据连接它 A = LOAD 'data1' USING ... AS ...; B = LOAD 'lookuptable' USING ... AS ...; C = JOIN A BY join_key, B B

在我的Pig脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名。我用这个映射从数据库创建了一个文本文件(~10k条记录)。但我不确定如何将这个文本文件分发到pig中,并在运行时访问它们。请帮忙

这是使用Pig算法的完美用例。您可以将查找表作为Pig关系加载,并根据实际数据连接它

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
请注意,要加载到内存中的表应该位于联接的右侧,如我上面所示