<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch Spark查询花费的时间太长_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Cassandra_Apache Spark_Datastax_Datastax Enterprise

elasticsearch Spark查询花费的时间太长

cassandra apache-spark

elasticsearch Spark查询花费的时间太长,elasticsearch,cassandra,apache-spark,datastax,datastax-enterprise,elasticsearch,Cassandra,Apache Spark,Datastax,Datastax Enterprise,我正在评估Spark/Cassandra和Elasticsearch，以决定选择哪一个现在，我使用spark和Cassandra生成不同的报告，但我注意到有200万条记录（大约400列），生成这5个报告分别需要9.7、9.8、9.9、10和10分钟。更改调度模式“spark.scheduler.mode”，“FAIR”似乎没有太大区别我正在考虑将所有数据加载到内存中并缓存它，这样，如果数据是预先加载到内存中的，后续查询可以运行得更快然而，在Elasticsearch中运行相同的报告只需2

我正在评估Spark/Cassandra和Elasticsearch，以决定选择哪一个

现在，我使用spark和Cassandra生成不同的报告，但我注意到有200万条记录（大约400列），生成这5个报告分别需要9.7、9.8、9.9、10和10分钟。更改调度模式

“spark.scheduler.mode”，“FAIR”

似乎没有太大区别

我正在考虑将所有数据加载到内存中并缓存它，这样，如果数据是预先加载到内存中的，后续查询可以运行得更快

然而，在Elasticsearch中运行相同的报告只需2分钟

对于如何启动火花响应时间，

，我不认为弹性搜索和火花是一个很好的比较，因为这两个系统实际上针对的是不同的用例。弹性搜索专注于搜索和快速检索，Spark是一个通用分析框架，专注于非常大的数据集

但是关于如何让你的Spark报告运行得更快。使用C*的关键是确保

spark.cassandra.input.split.size

足够小，以便获得足够的spark任务来充分利用集群中的并行性。这样做之后，您可以考虑在内存中缓存读取表，以便更快地访问。

开始，我不认为弹性搜索与SCAK确实是一个很好的比较，因为这两个系统实际上针对的是不同的用例。弹性搜索专注于搜索和快速检索，Spark是一个通用分析框架，专注于非常大的数据集

但是关于如何让你的Spark报告运行得更快。使用C*的关键是确保

spark.cassandra.input.split.size

足够小，以便获得足够的spark任务来充分利用集群中的并行性。在这样做之后，你可以考虑在内存中缓存读表，以便更快地访问。< P/> < P>星火不能推下“GROUBY”的操作。我发现另一个影响传输速度的瓶颈。将“es。滚动。大小”设置为10000。它可以提高从ES到Sink的传输速度。

< P>火花不能推低操作的速度。“分组依据”。我发现了另一个影响传输速度的瓶颈。将“es.scroll.size”设置为10000。它可以提高从es到spark的传输速度。

plz共享一些代码，并尝试找出哪个API需要更多时间。@Knight71-没有什么真正复杂的。只需执行

select count（*）从表

中，在Java.plz中使用SparkSQL可以共享您的一些代码，并尝试找出哪个API花费的时间更多。@Knight71-没有什么非常复杂的。只需执行

选择计数（*）从表

中，使用Java中的SparkSQL。如果这有助于加快我的查询速度，我将对此进行研究。谢谢如果这有助于加快我的查询速度，我将对此进行研究。谢谢