Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 列';输入大小/记录';在spark用户界面上?_Apache Spark - Fatal编程技术网

Apache spark 列';输入大小/记录';在spark用户界面上?

Apache spark 列';输入大小/记录';在spark用户界面上?,apache-spark,Apache Spark,我在群集中运行spark streaming时遇到一些问题 首先,我知道推测性任务是由一些执行者执行缓慢引起的,但是一些非推测性任务也运行缓慢,其中“input size/Record”列显示网络,而另一列显示内存。以下是一个屏幕截图: 那么,有人能告诉我“输入大小/记录”一栏中内存和网络的区别吗?谢谢 这里数据的大小不是问题。根据屏幕截图,所有分区的大小大致相同 真正的问题是数据局部性。大多数数据都可以在本地访问,但是有问题的数据被迫使用RACK\u LOCAL,因为它需要比预期更长的时间来

我在群集中运行spark streaming时遇到一些问题

首先,我知道推测性任务是由一些执行者执行缓慢引起的,但是一些推测性任务也运行缓慢,其中“input size/Record”列显示网络,而另一列显示内存。以下是一个屏幕截图:


那么,有人能告诉我“输入大小/记录”一栏中内存和网络的区别吗?谢谢

这里数据的大小不是问题。根据屏幕截图,所有分区的大小大致相同

真正的问题是数据局部性。大多数数据都可以在本地访问,但是有问题的数据被迫使用
RACK\u LOCAL
,因为它需要比预期更长的时间来执行推测,并尝试使用
ANY


这里没有足够的信息来全面诊断问题,但您可以尝试增加
spark.locality.wait
属性(默认值为3秒)

我以前解决的问题是,我分配了16个执行器给spark,但由于默认值
spark.locality.wait.process
spark.locality.wait.node
太大,大多数任务分配给了一小部分执行器,因此,我必须关闭
spark.locality.wait.process
spark.locality.wait.node