Hive SparkSQL连接池
我在datastax 4.6中有4个节点集群,其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求(使用配置单元上下文)。在这个过程中,每当我连接到spark并使用hivecontext时,查询执行最长需要2分钟。可能是由于配置单元元存储,并且随着表数量的增加,其执行时间也会增加 有人能提出解决办法吗?对象/连接池是一种方法吗Hive SparkSQL连接池,hive,datastax,apache-spark-sql,Hive,Datastax,Apache Spark Sql,我在datastax 4.6中有4个节点集群,其中有2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器获取sparksql查询执行请求(使用配置单元上下文)。在这个过程中,每当我连接到spark并使用hivecontext时,查询执行最长需要2分钟。可能是由于配置单元元存储,并且随着表数量的增加,其执行时间也会增加 有人能提出解决办法吗?对象/连接池是一种方法吗 多亏了Spark,它能够以惰性方式将数据拉入RDD,从而优化map reduce。与Hadoop
多亏了Spark,它能够以惰性方式将数据拉入RDD,从而优化map reduce。与Hadoop不同,它只在必要时从磁盘读取数据,并将数据缓存在内存中以便更快地访问 当您阅读Spark中的Cassandra时,有一些可调参数和一些最佳实践可以帮助您优化性能:
您是否尝试过比较SparkSQL和HiveContext之间的性能?尽管SparkSQL尚未完全成熟,但它将在hive环境可能不成熟的情况下继续开发和改进。尽可能使用SparkSQL。spark shell中的查询速度有多快?同样,在spark shell中,配置单元上下文中的第一个查询也需要时间。