Apache spark 火花作业卡在FiCaSchedulerApp保留容器上
我正在通过SageMaker运行PySpark处理器作业,它从S3读取数据,进行一些数据争用,最后生成三个输出数据帧,这些数据帧将写回S3 作业开始时运行得很快,但现在已经停滞了1个多小时,使用Sagemaker PySpark处理器,我无法导航到Spark UI来检查流程,唯一的信息源是AWS提供的两个日志流 在我的例子中,第一个日志流似乎没问题,但它开始给我Apache spark 火花作业卡在FiCaSchedulerApp保留容器上,apache-spark,amazon-sagemaker,Apache Spark,Amazon Sagemaker,我正在通过SageMaker运行PySpark处理器作业,它从S3读取数据,进行一些数据争用,最后生成三个输出数据帧,这些数据帧将写回S3 作业开始时运行得很快,但现在已经停滞了1个多小时,使用Sagemaker PySpark处理器,我无法导航到Spark UI来检查流程,唯一的信息源是AWS提供的两个日志流 在我的例子中,第一个日志流似乎没问题,但它开始给我 2021-05-20 13:28:49227信息定位器。资源本地化服务:清理前的缓存大小:397967178,总删除量:0,公共删除量
2021-05-20 13:28:49227信息定位器。资源本地化服务:清理前的缓存大小:397967178,总删除量:0,公共删除量:0,私人删除量:0
每10分钟一次,请参见下面的屏幕截图:
大约在同一时间,我的第二个日志流给了我
2021-05-20 15:47:54,080 INFO fica.FiCaSchedulerApp: Reserved container=container_1621516132606_0001_01_000010, on node=host: algo-1:43003 #containers=4 available=<memory:37521, vCores:44> used=<memory:153188, vCores:4> with resource=<memory:38297, vCores:1>
2021-05-20 15:47:54,080 INFO capacity.CapacityScheduler: Allocation proposal accepted
然后它返回到fica.FiCaSchedulerApp
事件
我的问题是:
[/var/log/yarn/userlogs/application_1621516132606_0001/container_1621516132606_0001_01_000004/stderr] 2021-05-20 16:05:23,118 INFO storage.BlockManager: Writing block rdd_9_8959 to disk
[/var/log/yarn/userlogs/application_1621516132606_0001/container_1621516132606_0001_01_000004/stderr] 2021-05-20 16:05:23,135 INFO storage.BlockManager: Dropping block rdd_9_8963 from memory