Scala 如何使用配置单元表中已分区的数据从RC文件创建RDD

Scala 如何使用配置单元表中已分区的数据从RC文件创建RDD,scala,apache-spark-sql,spark-dataframe,scala-collections,Scala,Apache Spark Sql,Spark Dataframe,Scala Collections,存储的配置单元表的位置是/data/warehouse/employee\u details 我有一个配置单元表employee,它加载了数据,并由emp_doj、emp_dept_id进行分区,文件格式为RC文件格式 我希望使用sparksql处理表中的数据,而不使用配置单元上下文(仅使用sqlContext) 请您帮助我如何将配置单元表的分区数据加载到RDD并转换为DataFrame,好吗?如果您使用的是Spark 2.0,您可以这样做 CREATE TABLE employee_detai

存储的配置单元表的位置是/data/warehouse/employee\u details

我有一个配置单元表employee,它加载了数据,并由emp_doj、emp_dept_id进行分区,文件格式为RC文件格式

我希望使用sparksql处理表中的数据,而不使用配置单元上下文(仅使用sqlContext)


请您帮助我如何将配置单元表的分区数据加载到RDD并转换为DataFrame,好吗?如果您使用的是Spark 2.0,您可以这样做

CREATE TABLE employee_details(                                                        
emp_first_name varchar(50),
emp_last_name varchar(50),
emp_dept varchar(50)
)
PARTITIONED BY (
emp_doj varchar(50),
emp_dept_id int  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'                                 
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'                                       
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';

如果您使用的是Spark 2.0,您可以通过这种方式来完成

CREATE TABLE employee_details(                                                        
emp_first_name varchar(50),
emp_last_name varchar(50),
emp_dept varchar(50)
)
PARTITIONED BY (
emp_doj varchar(50),
emp_dept_id int  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'                                 
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'                                       
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';

您可以使用
sqlContext.sql(“从员工详细信息中选择*)
您使用的spark版本是什么?您可以使用
sqlContext.sql(“从员工详细信息中选择*)
您使用的spark版本是什么?