Pyspark Livy在计算结束前返回

Pyspark Livy在计算结束前返回,pyspark,hortonworks-sandbox,livy,Pyspark,Hortonworks Sandbox,Livy,在Hortonworks沙箱上与Livy一起工作时,我们发现了一个问题,即在某些情况下,Livy API会在实际工作结束之前为语句提供结果,如Spark监视工具所示。在某些情况下,对于正常执行时间超过10分钟的作业,Livy只需不到5秒就能提供结果。如果在某些情况下,我们在相同的初始条件下重复相同的任务不止一次,我们就会看到这个问题发生。有什么想法吗?只需检查您是否在多个作业中使用相同的Livy会话。 如果使用相同的会话,则中间Spark数据集将被缓存,结果检索速度更快。这是一个较老的问题,但我

在Hortonworks沙箱上与Livy一起工作时,我们发现了一个问题,即在某些情况下,Livy API会在实际工作结束之前为语句提供结果,如Spark监视工具所示。在某些情况下,对于正常执行时间超过10分钟的作业,Livy只需不到5秒就能提供结果。如果在某些情况下,我们在相同的初始条件下重复相同的任务不止一次,我们就会看到这个问题发生。有什么想法吗?

只需检查您是否在多个作业中使用相同的Livy会话。
如果使用相同的会话,则中间Spark数据集将被缓存,结果检索速度更快。

这是一个较老的问题,但我将测试是否存在这种情况