如何在Amazon EMR上的pig中使用Python流式UDF
Pig0.12引入了流式python UDF,但它们是实验性的,因此需要Hadoop1 但是,Amazon提供的唯一可以使用pig 0.12的AMI是AMI3.1.0,它使用的是hadoop 2.4,而不是hadoop 1:如何在Amazon EMR上的pig中使用Python流式UDF,python,numpy,apache-pig,elastic-map-reduce,amazon-ami,Python,Numpy,Apache Pig,Elastic Map Reduce,Amazon Ami,Pig0.12引入了流式python UDF,但它们是实验性的,因此需要Hadoop1 但是,Amazon提供的唯一可以使用pig 0.12的AMI是AMI3.1.0,它使用的是hadoop 2.4,而不是hadoop 1: 因此,唯一支持正确版本pig的AMI不支持正确版本的hadoop。有没有办法让流式UDF在EMR上工作?您可以使用引导操作在EMR上安装自己版本的Pig。您需要在AMI版本(2.4.5?)上创建一个没有安装Pig的集群,然后安装一个您喜欢的Pig版本(0.12)我使用E
因此,唯一支持正确版本pig的AMI不支持正确版本的hadoop。有没有办法让流式UDF在EMR上工作?您可以使用引导操作在EMR上安装自己版本的Pig。您需要在AMI版本(2.4.5?)上创建一个没有安装Pig的集群,然后安装一个您喜欢的Pig版本(0.12)我使用EMR AMI 3.0.4,预装了ApachePig 0.11.1.1,我只是从tarball中提取ApachePig 0.13.0,并将路径更新为指向0.13.0,而不是0.11.0。我会假设同样的云计算也可以用于较老的AMI。这也应该有效。然而,Pig不是AMI本身的一部分,而是在集群实例化期间安装的。因此,您可以将集群定义更改为不预装。