Apache spark 如何基于现有Orc文件创建外部配置单元表?

Apache spark 如何基于现有Orc文件创建外部配置单元表?,apache-spark,hive,external,orc,Apache Spark,Hive,External,Orc,我有一些由spark job制作的兽人档案。 是否有一些简单的方法可以直接从这些文件创建外部表?我这样做的方法是首先在Spark作业本身中注册一个临时表,然后利用HiveContext的sql方法在配置单元中使用临时表中的数据创建一个新表。例如,如果我有一个dataframe df和HiveContext hc,则一般过程是: df.registerTempTable("my_temp_table") hc.sql("CREATE TABLE new_table_name STORED AS O

我有一些由spark job制作的兽人档案。
是否有一些简单的方法可以直接从这些文件创建外部表?

我这样做的方法是首先在Spark作业本身中注册一个临时表,然后利用HiveContext的sql方法在配置单元中使用临时表中的数据创建一个新表。例如,如果我有一个dataframe df和HiveContext hc,则一般过程是:

df.registerTempTable("my_temp_table")
hc.sql("CREATE TABLE new_table_name STORED AS ORC  AS SELECT * from my_temp_table")

我这样做的方法是首先在Spark作业本身中注册一个临时表,然后利用HiveContext的sql方法在配置单元中使用临时表中的数据创建一个新表。例如,如果我有一个dataframe df和HiveContext hc,则一般过程是:

df.registerTempTable("my_temp_table")
hc.sql("CREATE TABLE new_table_name STORED AS ORC  AS SELECT * from my_temp_table")

请仔细阅读本教程。尽管本教程来自HortonWorks,但它通常适用于hadoop生态系统。请仔细阅读本教程。尽管本教程来自HortonWorks,但它通常适用于hadoop生态系统。这会将ORC文件复制到配置单元仓库。@emeth是的,您可以在ORC文件上创建配置单元表。这会将ORC文件复制到配置单元仓库。@emeth是的,您可以在ORC文件上创建配置单元表。