Performance Spark的性能瓶颈_Performance_Apache Spark_Bigdata_Distributed Computing

Performance Spark的性能瓶颈

performance apache-spark

Performance Spark的性能瓶颈,performance,apache-spark,bigdata,distributed-computing,Performance,Apache Spark,Bigdata,Distributed Computing,NSDI 2015上发表的一篇论文“理解数据分析框架中的性能”得出结论，CPU（而不是IO或网络）是Spark的性能瓶颈。Kay在Spark上做了一些实验，包括BDbench、TPC-DS和本文中的一个处理工作负载（仅使用Spark SQL？）。我想知道这个结论是否适用于一些基于Spark的框架（比如流媒体，通过网络接收连续的数据流，网络IO和磁盘都将承受高压）。这实际上取决于您执行的作业。你需要分析你写的工作，看看压力和瓶颈在哪里。例如，我最近有一份工作，工作人员没有足够的内存，因此它也不得

NSDI 2015上发表的一篇论文“理解数据分析框架中的性能”得出结论，CPU（而不是IO或网络）是Spark的性能瓶颈。Kay在Spark上做了一些实验，包括BDbench、TPC-DS和本文中的一个处理工作负载（仅使用Spark SQL？）。我想知道这个结论是否适用于一些基于Spark的框架（比如流媒体，通过网络接收连续的数据流，网络IO和磁盘都将承受高压）。

这实际上取决于您执行的作业。你需要分析你写的工作，看看压力和瓶颈在哪里。

例如，我最近有一份工作，工作人员没有足够的内存，因此它也不得不溢出到磁盘，从而使其总体IO增加了很多。当我消除内存问题时，CPU是下一个问题。更严格的代码将问题转移到IO等方面。

这实际上取决于您执行的作业。你需要分析你写的工作，看看压力和瓶颈在哪里。

例如，我最近有一份工作，工作人员没有足够的内存，因此它也不得不溢出到磁盘，从而使其总体IO增加了很多。当我消除内存问题时，CPU是下一个问题。更严格的代码会将问题转移到IO等方面。

网络和磁盘在Spark流媒体中承受的压力可能更小，因为流媒体通常是安全的，这意味着所有数据通常不会永远保存在一起

但归根结底，这是一个研究问题：解决这个问题的唯一方法是基准测试。Kay的代码是。

网络和磁盘在Spark流媒体中承受的压力可能更小，因为流媒体通常都是静态的，这意味着所有的数据通常不会永远保存

但归根结底，这是一个研究问题：解决这个问题的唯一方法是基准测试。Kay的代码是。

谢谢您的关注。但是Kay的实验大多基于Spark SQL，这在某些方面与其他框架不同（尽管它们共享相同的Spark核心）。我只是想知道这篇论文是如何得出关于Spark（不是Spark SQL）的结论的。我会调查这个问题的，再次谢谢！谢谢你的关注。但是Kay的实验大多基于Spark SQL，这在某些方面与其他框架不同（尽管它们共享相同的Spark核心）。我只是想知道这篇论文是如何得出关于Spark（不是Spark SQL）的结论的。我会调查这个问题的，再次谢谢！谢谢你的回答。你说得对，这取决于实际工作量。但我只是想知道这个结论是否正确，因为这篇论文确实以一个共同的模式给出了它。谢谢你的回答。你说得对，这取决于实际工作量。但我只是想知道这个结论是否正确，因为这篇论文确实以一个共同的模式给出了这个结论。