elasticsearch Spark查询花费的时间太长,elasticsearch,cassandra,apache-spark,datastax,datastax-enterprise,elasticsearch,Cassandra,Apache Spark,Datastax,Datastax Enterprise" /> elasticsearch Spark查询花费的时间太长,elasticsearch,cassandra,apache-spark,datastax,datastax-enterprise,elasticsearch,Cassandra,Apache Spark,Datastax,Datastax Enterprise" />

elasticsearch Spark查询花费的时间太长

elasticsearch Spark查询花费的时间太长,elasticsearch,cassandra,apache-spark,datastax,datastax-enterprise,elasticsearch,Cassandra,Apache Spark,Datastax,Datastax Enterprise,我正在评估Spark/Cassandra和Elasticsearch,以决定选择哪一个 现在,我使用spark和Cassandra生成不同的报告,但我注意到有200万条记录(大约400列),生成这5个报告分别需要9.7、9.8、9.9、10和10分钟。 更改调度模式“spark.scheduler.mode”,“FAIR”似乎没有太大区别 我正在考虑将所有数据加载到内存中并缓存它,这样,如果数据是预先加载到内存中的,后续查询可以运行得更快 然而,在Elasticsearch中运行相同的报告只需2

我正在评估Spark/Cassandra和Elasticsearch,以决定选择哪一个

现在,我使用spark和Cassandra生成不同的报告,但我注意到有200万条记录(大约400列),生成这5个报告分别需要9.7、9.8、9.9、10和10分钟。 更改调度模式
“spark.scheduler.mode”,“FAIR”
似乎没有太大区别

我正在考虑将所有数据加载到内存中并缓存它,这样,如果数据是预先加载到内存中的,后续查询可以运行得更快

然而,在Elasticsearch中运行相同的报告只需2分钟


对于如何启动火花响应时间,

,我不认为弹性搜索和火花是一个很好的比较,因为这两个系统实际上针对的是不同的用例。弹性搜索专注于搜索和快速检索,Spark是一个通用分析框架,专注于非常大的数据集


但是关于如何让你的Spark报告运行得更快。使用C*的关键是确保
spark.cassandra.input.split.size
足够小,以便获得足够的spark任务来充分利用集群中的并行性。这样做之后,您可以考虑在内存中缓存读取表,以便更快地访问。

开始,我不认为弹性搜索与SCAK确实是一个很好的比较,因为这两个系统实际上针对的是不同的用例。弹性搜索专注于搜索和快速检索,Spark是一个通用分析框架,专注于非常大的数据集


但是关于如何让你的Spark报告运行得更快。使用C*的关键是确保
spark.cassandra.input.split.size
足够小,以便获得足够的spark任务来充分利用集群中的并行性。在这样做之后,你可以考虑在内存中缓存读表,以便更快地访问。< P/> < P>星火不能推下“GROUBY”的操作。我发现另一个影响传输速度的瓶颈。将“es。滚动。大小”设置为10000。它可以提高从ES到Sink的传输速度。

< P>火花不能推低操作的速度。“分组依据”。我发现了另一个影响传输速度的瓶颈。将“es.scroll.size”设置为10000。它可以提高从es到spark的传输速度。

plz共享一些代码,并尝试找出哪个API需要更多时间。@Knight71-没有什么真正复杂的。只需执行
select count(*)从表
中,在Java.plz中使用SparkSQL可以共享您的一些代码,并尝试找出哪个API花费的时间更多。@Knight71-没有什么非常复杂的。只需执行
选择计数(*)从表
中,使用Java中的SparkSQL。如果这有助于加快我的查询速度,我将对此进行研究。谢谢如果这有助于加快我的查询速度,我将对此进行研究。谢谢