Apache spark 列';输入大小/记录';在spark用户界面上?
我在群集中运行spark streaming时遇到一些问题 首先,我知道推测性任务是由一些执行者执行缓慢引起的,但是一些非推测性任务也运行缓慢,其中“input size/Record”列显示网络,而另一列显示内存。以下是一个屏幕截图:Apache spark 列';输入大小/记录';在spark用户界面上?,apache-spark,Apache Spark,我在群集中运行spark streaming时遇到一些问题 首先,我知道推测性任务是由一些执行者执行缓慢引起的,但是一些非推测性任务也运行缓慢,其中“input size/Record”列显示网络,而另一列显示内存。以下是一个屏幕截图: 那么,有人能告诉我“输入大小/记录”一栏中内存和网络的区别吗?谢谢 这里数据的大小不是问题。根据屏幕截图,所有分区的大小大致相同 真正的问题是数据局部性。大多数数据都可以在本地访问,但是有问题的数据被迫使用RACK\u LOCAL,因为它需要比预期更长的时间来
那么,有人能告诉我“输入大小/记录”一栏中内存和网络的区别吗?谢谢 这里数据的大小不是问题。根据屏幕截图,所有分区的大小大致相同 真正的问题是数据局部性。大多数数据都可以在本地访问,但是有问题的数据被迫使用
RACK\u LOCAL
,因为它需要比预期更长的时间来执行推测,并尝试使用ANY
这里没有足够的信息来全面诊断问题,但您可以尝试增加
spark.locality.wait
属性(默认值为3秒) 我以前解决的问题是,我分配了16个执行器给spark,但由于默认值spark.locality.wait.process
和spark.locality.wait.node
太大,大多数任务分配给了一小部分执行器,因此,我必须关闭spark.locality.wait.process
和spark.locality.wait.node