Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Performance Spark的性能瓶颈_Performance_Apache Spark_Bigdata_Distributed Computing - Fatal编程技术网

Performance Spark的性能瓶颈

Performance Spark的性能瓶颈,performance,apache-spark,bigdata,distributed-computing,Performance,Apache Spark,Bigdata,Distributed Computing,NSDI 2015上发表的一篇论文“理解数据分析框架中的性能”得出结论,CPU(而不是IO或网络)是Spark的性能瓶颈。Kay在Spark上做了一些实验,包括BDbench、TPC-DS和本文中的一个处理工作负载(仅使用Spark SQL?)。我想知道这个结论是否适用于一些基于Spark的框架(比如流媒体,通过网络接收连续的数据流,网络IO和磁盘都将承受高压)。这实际上取决于您执行的作业。你需要分析你写的工作,看看压力和瓶颈在哪里。 例如,我最近有一份工作,工作人员没有足够的内存,因此它也不得

NSDI 2015上发表的一篇论文“理解数据分析框架中的性能”得出结论,CPU(而不是IO或网络)是Spark的性能瓶颈。Kay在Spark上做了一些实验,包括BDbench、TPC-DS和本文中的一个处理工作负载(仅使用Spark SQL?)。我想知道这个结论是否适用于一些基于Spark的框架(比如流媒体,通过网络接收连续的数据流,网络IO和磁盘都将承受高压)。

这实际上取决于您执行的作业。你需要分析你写的工作,看看压力和瓶颈在哪里。
例如,我最近有一份工作,工作人员没有足够的内存,因此它也不得不溢出到磁盘,从而使其总体IO增加了很多。当我消除内存问题时,CPU是下一个问题。更严格的代码将问题转移到IO等方面。

这实际上取决于您执行的作业。你需要分析你写的工作,看看压力和瓶颈在哪里。
例如,我最近有一份工作,工作人员没有足够的内存,因此它也不得不溢出到磁盘,从而使其总体IO增加了很多。当我消除内存问题时,CPU是下一个问题。更严格的代码会将问题转移到IO等方面。

网络和磁盘在Spark流媒体中承受的压力可能更小,因为流媒体通常是安全的,这意味着所有数据通常不会永远保存在一起


但归根结底,这是一个研究问题:解决这个问题的唯一方法是基准测试。Kay的代码是。

网络和磁盘在Spark流媒体中承受的压力可能更小,因为流媒体通常都是静态的,这意味着所有的数据通常不会永远保存


但归根结底,这是一个研究问题:解决这个问题的唯一方法是基准测试。Kay的代码是。

谢谢您的关注。但是Kay的实验大多基于Spark SQL,这在某些方面与其他框架不同(尽管它们共享相同的Spark核心)。我只是想知道这篇论文是如何得出关于Spark(不是Spark SQL)的结论的。我会调查这个问题的,再次谢谢!谢谢你的关注。但是Kay的实验大多基于Spark SQL,这在某些方面与其他框架不同(尽管它们共享相同的Spark核心)。我只是想知道这篇论文是如何得出关于Spark(不是Spark SQL)的结论的。我会调查这个问题的,再次谢谢!谢谢你的回答。你说得对,这取决于实际工作量。但我只是想知道这个结论是否正确,因为这篇论文确实以一个共同的模式给出了它。谢谢你的回答。你说得对,这取决于实际工作量。但我只是想知道这个结论是否正确,因为这篇论文确实以一个共同的模式给出了这个结论。