Map 如何停止在Amazon EMR上运行地图任务?
我有一个作业在32个spot实例上使用Hadoop 0.20运行。它已经运行了9个小时,没有出现任何错误。在这段时间内,它处理了3800个任务,但我注意到只有两个任务似乎被卡住了,并且单独运行了几个小时(显然是响应,因为它们没有超时)。这些任务通常不会超过15分钟。我不想失去所有已经完成的工作,因为这要花我很多钱。我真的很想终止这两个任务,让Hadoop重新分配它们,或者把它们算作失败。在它们停止之前,我无法从其他3798地图中获得reduce结果 但我不知道该怎么做。我曾考虑尝试找出哪些实例正在运行任务,然后终止这些实例,但是Map 如何停止在Amazon EMR上运行地图任务?,map,hadoop,amazon,emr,Map,Hadoop,Amazon,Emr,我有一个作业在32个spot实例上使用Hadoop 0.20运行。它已经运行了9个小时,没有出现任何错误。在这段时间内,它处理了3800个任务,但我注意到只有两个任务似乎被卡住了,并且单独运行了几个小时(显然是响应,因为它们没有超时)。这些任务通常不会超过15分钟。我不想失去所有已经完成的工作,因为这要花我很多钱。我真的很想终止这两个任务,让Hadoop重新分配它们,或者把它们算作失败。在它们停止之前,我无法从其他3798地图中获得reduce结果 但我不知道该怎么做。我曾考虑尝试找出哪些实例正
如何仅终止单个映射任务?通常,在Hadoop集群上,您可以通过发出以下命令终止特定任务:
hadoop job -kill-task [attempt_id]
这将终止给定的映射任务,并在其他服务器上重新提交它
具有新id的节点
要获取attemp\u id
请在Jobtracker
的webui
上导航到映射任务
如果有疑问,请单击它并注意它的id(例如:尝试\u 201210111830\u 0012\u m\u000000\u 0)ssh到Lorand提到的主节点,并执行:
bin/hadoop job -list
bin/hadoop job –kill <JobID>
bin/hadoop作业-列表
bin/hadoop作业–kill
虽然我仍然对这个问题的答案感兴趣,以备将来参考,但我发现任务会在3小时后自杀。当我在本地Hadoop集群上运行时,这真是太棒了,谢谢你。我怎样才能在EMR上工作呢?是否有弹性mapreduce命令行选项?我找不到。我确实看到我可以ssh到主节点:/elastic-mapreduce-ssh-jobflow-JobFlowID
。然后我可以执行上面的命令吗?Ssh到主节点(docs:)并发出bin/hadoop作业以查看您有哪些选项