Scala Spark 1.4-是HiveContext&;SQLContext在执行方面是否相同?
我正在使用齐柏林飞艇对我的spark集群执行查询。 我有文件中的数据,这些文件可以通过scala访问DataFrame,然后注册为表或通过配置单元注册(同一文件注册为配置单元表) 就SQL代码的执行而言,一个比另一个快吗 以下是加载数据和注册为表的代码示例:Scala Spark 1.4-是HiveContext&;SQLContext在执行方面是否相同?,scala,hadoop,apache-spark-sql,Scala,Hadoop,Apache Spark Sql,我正在使用齐柏林飞艇对我的spark集群执行查询。 我有文件中的数据,这些文件可以通过scala访问DataFrame,然后注册为表或通过配置单元注册(同一文件注册为配置单元表) 就SQL代码的执行而言,一个比另一个快吗 以下是加载数据和注册为表的代码示例: import sys.process._ // Zeppelin creates and injects sc (SparkContext) and sqlContext (HiveContext or SqlContext) //
import sys.process._
// Zeppelin creates and injects sc (SparkContext) and sqlContext (HiveContext or SqlContext)
// So you don't need create them manually
val zeppelinHome = ("pwd" !!).replace("\n", "")
val bankText = sc.textFile(s"file://$zeppelinHome/data/bank-full.csv")
case class Bank(age: Integer, job: String, marital: String, education: String, balance: Integer)
val bank = bankText.map(s => s.split(";")).filter(s => s(0) != "\"age\"").map(
s => Bank(s(0).toInt,
s(1).replaceAll("\"", ""),
s(2).replaceAll("\"", ""),
s(3).replaceAll("\"", ""),
s(5).replaceAll("\"", "").toInt
)
).toDF()
bank.registerTempTable("bank")
我假设我使用的是SQL,而不是HQL
谢谢