Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花作业卡在FiCaSchedulerApp保留容器上_Apache Spark_Amazon Sagemaker - Fatal编程技术网

Apache spark 火花作业卡在FiCaSchedulerApp保留容器上

Apache spark 火花作业卡在FiCaSchedulerApp保留容器上,apache-spark,amazon-sagemaker,Apache Spark,Amazon Sagemaker,我正在通过SageMaker运行PySpark处理器作业,它从S3读取数据,进行一些数据争用,最后生成三个输出数据帧,这些数据帧将写回S3 作业开始时运行得很快,但现在已经停滞了1个多小时,使用Sagemaker PySpark处理器,我无法导航到Spark UI来检查流程,唯一的信息源是AWS提供的两个日志流 在我的例子中,第一个日志流似乎没问题,但它开始给我 2021-05-20 13:28:49227信息定位器。资源本地化服务:清理前的缓存大小:397967178,总删除量:0,公共删除量

我正在通过SageMaker运行PySpark处理器作业,它从S3读取数据,进行一些数据争用,最后生成三个输出数据帧,这些数据帧将写回S3

作业开始时运行得很快,但现在已经停滞了1个多小时,使用Sagemaker PySpark处理器,我无法导航到Spark UI来检查流程,唯一的信息源是AWS提供的两个日志流

在我的例子中,第一个日志流似乎没问题,但它开始给我
2021-05-20 13:28:49227信息定位器。资源本地化服务:清理前的缓存大小:397967178,总删除量:0,公共删除量:0,私人删除量:0
每10分钟一次,请参见下面的屏幕截图:

大约在同一时间,我的第二个日志流给了我

2021-05-20 15:47:54,080 INFO fica.FiCaSchedulerApp: Reserved container=container_1621516132606_0001_01_000010, on node=host: algo-1:43003 #containers=4 available=<memory:37521, vCores:44> used=<memory:153188, vCores:4> with resource=<memory:38297, vCores:1>
2021-05-20 15:47:54,080 INFO capacity.CapacityScheduler: Allocation proposal accepted
然后它返回到
fica.FiCaSchedulerApp
事件

我的问题是:

  • 这看起来正常吗
  • Spark最有可能在幕后做什么?我的第二阶段大约有9000个任务,它们在40分钟内就完成了,我看到了关于第4阶段任务0的日志,然后是这个
  • 如果不是,我需要什么信息来理解为什么这样做很慢以及如何改进
  • 非常感谢

    [/var/log/yarn/userlogs/application_1621516132606_0001/container_1621516132606_0001_01_000004/stderr] 2021-05-20 16:05:23,118 INFO storage.BlockManager: Writing block rdd_9_8959 to disk
    [/var/log/yarn/userlogs/application_1621516132606_0001/container_1621516132606_0001_01_000004/stderr] 2021-05-20 16:05:23,135 INFO storage.BlockManager: Dropping block rdd_9_8963 from memory