Hive SparkSQL连接池

Hive SparkSQL连接池,hive,datastax,apache-spark-sql,Hive,Datastax,Apache Spark Sql,我在datastax 4.6中有4个节点集群,其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求(使用配置单元上下文)。在这个过程中,每当我连接到spark并使用hivecontext时,查询执行最长需要2分钟。可能是由于配置单元元存储,并且随着表数量的增加,其执行时间也会增加 有人能提出解决办法吗?对象/连接池是一种方法吗 多亏了Spark,它能够以惰性方式将数据拉入RDD,从而优化map reduce。与Hadoop

我在datastax 4.6中有4个节点集群,其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求(使用配置单元上下文)。在这个过程中,每当我连接到spark并使用hivecontext时,查询执行最长需要2分钟。可能是由于配置单元元存储,并且随着表数量的增加,其执行时间也会增加

有人能提出解决办法吗?对象/连接池是一种方法吗


多亏了Spark,它能够以惰性方式将数据拉入RDD,从而优化map reduce。与Hadoop不同,它只在必要时从磁盘读取数据,并将数据缓存在内存中以便更快地访问

当您阅读Spark中的Cassandra时,有一些可调参数和一些最佳实践可以帮助您优化性能:

  • 查看作业执行时的工作方式。找出哪个阶段需要时间将有助于您找出如何最佳地优化它
  • 在spark shell中使用,查看spark执行步骤
  • 如果您正在这样做,请避免使用它们——它们会消除数据局部性的好处
  • 优化您的应用程序以实现更快的读取

  • 您是否尝试过比较SparkSQL和HiveContext之间的性能?尽管SparkSQL尚未完全成熟,但它将在hive环境可能不成熟的情况下继续开发和改进。尽可能使用SparkSQL。

    spark shell中的查询速度有多快?同样,在spark shell中,配置单元上下文中的第一个查询也需要时间。