Hive SparkSQL连接池_Hive_Datastax_Apache Spark Sql

Hive SparkSQL连接池

hive

Hive SparkSQL连接池,hive,datastax,apache-spark-sql,Hive,Datastax,Apache Spark Sql,我在datastax 4.6中有4个节点集群，其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求（使用配置单元上下文）。在这个过程中，每当我连接到spark并使用hivecontext时，查询执行最长需要2分钟。可能是由于配置单元元存储，并且随着表数量的增加，其执行时间也会增加有人能提出解决办法吗？对象/连接池是一种方法吗多亏了Spark，它能够以惰性方式将数据拉入RDD，从而优化map reduce。与Hadoop

我在datastax 4.6中有4个节点集群，其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求（使用配置单元上下文）。在这个过程中，每当我连接到spark并使用hivecontext时，查询执行最长需要2分钟。可能是由于配置单元元存储，并且随着表数量的增加，其执行时间也会增加

有人能提出解决办法吗？对象/连接池是一种方法吗

多亏了Spark，它能够以惰性方式将数据拉入RDD，从而优化map reduce。与Hadoop不同，它只在必要时从磁盘读取数据，并将数据缓存在内存中以便更快地访问

当您阅读Spark中的Cassandra时，有一些可调参数和一些最佳实践可以帮助您优化性能：

查看作业执行时的工作方式。找出哪个阶段需要时间将有助于您找出如何最佳地优化它

在spark shell中使用，查看spark执行步骤

如果您正在这样做，请避免使用它们——它们会消除数据局部性的好处

优化您的应用程序以实现更快的读取

您是否尝试过比较SparkSQL和HiveContext之间的性能？尽管SparkSQL尚未完全成熟，但它将在hive环境可能不成熟的情况下继续开发和改进。尽可能使用SparkSQL。

spark shell中的查询速度有多快？同样，在spark shell中，配置单元上下文中的第一个查询也需要时间。