Scala 如何使用配置单元表中已分区的数据从RC文件创建RDD_Scala_Apache Spark Sql_Spark Dataframe_Scala Collections

Scala 如何使用配置单元表中已分区的数据从RC文件创建RDD

scala

Scala 如何使用配置单元表中已分区的数据从RC文件创建RDD,scala,apache-spark-sql,spark-dataframe,scala-collections,Scala,Apache Spark Sql,Spark Dataframe,Scala Collections,存储的配置单元表的位置是/data/warehouse/employee\u details 我有一个配置单元表employee，它加载了数据，并由emp_doj、emp_dept_id进行分区，文件格式为RC文件格式我希望使用sparksql处理表中的数据，而不使用配置单元上下文（仅使用sqlContext）请您帮助我如何将配置单元表的分区数据加载到RDD并转换为DataFrame，好吗？如果您使用的是Spark 2.0，您可以这样做 CREATE TABLE employee_detai

存储的配置单元表的位置是/data/warehouse/employee\u details

我有一个配置单元表employee，它加载了数据，并由emp_doj、emp_dept_id进行分区，文件格式为RC文件格式

我希望使用sparksql处理表中的数据，而不使用配置单元上下文（仅使用sqlContext）

请您帮助我如何将配置单元表的分区数据加载到RDD并转换为DataFrame，好吗？如果您使用的是Spark 2.0，您可以这样做

CREATE TABLE employee_details(                                                        
emp_first_name varchar(50),
emp_last_name varchar(50),
emp_dept varchar(50)
)
PARTITIONED BY (
emp_doj varchar(50),
emp_dept_id int  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'                                 
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'                                       
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';

如果您使用的是Spark 2.0，您可以通过这种方式来完成

CREATE TABLE employee_details(                                                        
emp_first_name varchar(50),
emp_last_name varchar(50),
emp_dept varchar(50)
)
PARTITIONED BY (
emp_doj varchar(50),
emp_dept_id int  )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'                                 
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'                                       
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';

您可以使用

sqlContext.sql（“从员工详细信息中选择*）

您使用的spark版本是什么？您可以使用

sqlContext.sql（“从员工详细信息中选择*）

您使用的spark版本是什么？