Python EMR长时间没有输出

Python EMR长时间没有输出,python,hadoop,mapreduce,emr,mrjob,Python,Hadoop,Mapreduce,Emr,Mrjob,我有一个使用MRJob库用python编写的MapReduce作业。在我的本地机器上完成这项工作大约需要30分钟。在EMR上运行相同的作业时,我很长一段时间没有看到输出(~=1小时)。我不得不结束这项工作。而且,在我的本地机器上花费很短时间的作业在EMR上运行得很好。我尝试增加超时,但任务跟踪器在超时后杀死了减速机。我收到以下错误消息 `Task attempt_201301181027_0001_r_000000_0 failed to report status for 3600 secon

我有一个使用MRJob库用python编写的MapReduce作业。在我的本地机器上完成这项工作大约需要30分钟。在EMR上运行相同的作业时,我很长一段时间没有看到输出(~=1小时)。我不得不结束这项工作。而且,在我的本地机器上花费很短时间的作业在EMR上运行得很好。我尝试增加超时,但任务跟踪器在超时后杀死了减速机。我收到以下错误消息

`Task attempt_201301181027_0001_r_000000_0 failed to report status for 3600 seconds.Killing!

EMR为我的工作创建了4个映射器和一个减速器。另外,我编写的reducer代码需要在整个数据集(大约11-12MB)中进行大量循环。我希望这项工作能在和我本地机器差不多的时间内完成,但它没有发生。解决方案是什么?`

你能分享你的reducer代码吗?其实代码很长!奇怪的是,在我的jobtracker上,我看到map-100%和reduce=100%。有可能你只是有很多数据要上传到S3——可能会将你的代码复制到pastebin并共享链接。输入数据大约为12MB。我正在本地机器上进行输出如果不知道如何设置工作以及减速机的外观,我将无法提供真正的帮助