ApachePig-如何维护分布式查找表以供python UDF访问？_Python_Hadoop_Mapreduce_Apache Pig

ApachePig-如何维护分布式查找表以供python UDF访问？

python hadoop mapreduce apache-pig

ApachePig-如何维护分布式查找表以供python UDF访问？,python,hadoop,mapreduce,apache-pig,Python,Hadoop,Mapreduce,Apache Pig,在我的Pig脚本中，有一个中间步骤，我想将生成的服务器主机名映射到应用程序名。我用这个映射从数据库创建了一个文本文件（~10k条记录）。但我不确定如何将这个文本文件分发到pig中，并在运行时访问它们。请帮忙这是使用Pig算法的完美用例。您可以将查找表作为Pig关系加载，并根据实际数据连接它 A = LOAD 'data1' USING ... AS ...; B = LOAD 'lookuptable' USING ... AS ...; C = JOIN A BY join_key, B B

在我的Pig脚本中，有一个中间步骤，我想将生成的服务器主机名映射到应用程序名。我用这个映射从数据库创建了一个文本文件（~10k条记录）。但我不确定如何将这个文本文件分发到pig中，并在运行时访问它们。请帮忙

这是使用Pig算法的完美用例。您可以将查找表作为Pig关系加载，并根据实际数据连接它

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意，要加载到内存中的表应该位于联接的右侧，如我上面所示