Python Amazon EMR作业,以许多json文件作为输入
我正在用python编写一个hadoop流应用程序,在EMR上运行。EMR作业的输入是S3 bucket中的文件目录,每个文件都是包含单个json对象的json文件。我希望映射程序对每个json文件进行操作,一次一个,并生成一个键、值对,如下所示: 地图: {'name':'foo','request':'bar'}->'name',{'request':'bar'} 减少: 'name',[{'request':'bar'},{'request':'baz'}]->{'name':'foo','request':['bar','baz']}Python Amazon EMR作业,以许多json文件作为输入,python,json,hadoop,amazon-s3,amazon-emr,Python,Json,Hadoop,Amazon S3,Amazon Emr,我正在用python编写一个hadoop流应用程序,在EMR上运行。EMR作业的输入是S3 bucket中的文件目录,每个文件都是包含单个json对象的json文件。我希望映射程序对每个json文件进行操作,一次一个,并生成一个键、值对,如下所示: 地图: {'name':'foo','request':'bar'}->'name',{'request':'bar'} 减少: 'name',[{'request':'bar'},{'request':'baz'}]->{'name':'foo',
如果我想处理的所有json对象都作为一行写入一个文件,那么这似乎是可行的,尽管事实并非如此;每个.json文件中都有多个换行符。是否有为此类操作定制的输入格式?请给我一些指导。谢谢 您可以在Java中使用全文件阅读器: 关键是它为isSplitable返回false