Apache spark 间歇洗牌时未找到文件导致Spark作业崩溃

Apache spark 间歇洗牌时未找到文件导致Spark作业崩溃,apache-spark,mesos,Apache Spark,Mesos,我有几个Spark作业,包括批处理作业和流作业,用于处理系统日志和分析它们。我们使用卡夫卡作为连接每个作业的管道 升级到Spark 2.1.0+Spark Kafka Streaming 010后,我发现一些作业(批处理或流处理)会随机抛出异常(运行数小时后或仅在20分钟内运行)。有谁能给我一些关于如何找出真正根源的建议吗?(看起来有很多帖子都在讨论这个问题,但解决方案对我来说似乎不是很有用…) 这是因为Spark配置问题还是代码错误?我不能粘贴我所有的工作代码,因为太多了 00:30:0451

我有几个Spark作业,包括批处理作业和流作业,用于处理系统日志和分析它们。我们使用卡夫卡作为连接每个作业的管道

升级到Spark 2.1.0+Spark Kafka Streaming 010后,我发现一些作业(批处理或流处理)会随机抛出异常(运行数小时后或仅在20分钟内运行)。有谁能给我一些关于如何找出真正根源的建议吗?(看起来有很多帖子都在讨论这个问题,但解决方案对我来说似乎不是很有用…)

这是因为Spark配置问题还是代码错误?我不能粘贴我所有的工作代码,因为太多了

00:30:04510警告-17/07/22 00:30:04警告任务集管理器:在阶段1518490.0中丢失任务60.0(TID 338070,10.133.96.21,执行器0):java.io.FileNotFoundException:/mnt/mesos/work_dir/slaves/20160924-021501-274760970-5050-7646-S2/frameworks/40aeb8e5-e82a-4df9-b034-8815a7a7564b-2543/executors/0/runs/fd15c15d-2511-4f37-a106-27431f583153/blockmgr-a0e0e673-f88b-4d12-a802-C35643C6B2/33/shuffle\u2090-60\u0.index.795BE-235BE-A797B917B6或类似目录 00:30:04510警告-位于java.io.FileOutputStream.open0(本机方法) 00:30:04510警告-在java.io.FileOutputStream.open(FileOutputStream.java:270) 00:30:04510警告-位于java.io.FileOutputStream。(FileOutputStream.java:213) 00:30:04510警告-位于java.io.FileOutputStream。(FileOutputStream.java:162) 00:30:04510警告-位于org.apache.spark.shuffle.IndexShuffleBlockResolver.writeIndexFileAndCommit(IndexShuffleBlockResolver.scala:144) 00:30:04510警告-位于org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:128) 00:30:04510警告-位于org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96) 00:30:04510警告-位于org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53) 00:30:04510警告-位于org.apache.spark.scheduler.Task.run(Task.scala:99) 00:30:04510警告-位于org.apache.spark.executor.executor$TaskRunner.run(executor.scala:282) 00:30:04510警告-位于java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 00:30:04510警告-位于java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 00:30:04510警告-位于java.lang.Thread.run(Thread.java:748)


我终于找到了根本原因。Spark Jobs一点问题都没有。 我们有一个crontab,它错误地清理了/mnt处的临时存储,错误地删除了spark缓存文件