Apache spark 如何在spark中读取orc事务配置单元表?
如何在spark中读取orc事务配置单元表 我在通过spark读取ORC事务表时遇到了问题,我得到了配置单元表的模式,但无法读取实际数据 请参见完整场景: 现在我试图从Spark sql访问Hive Orc数据,但它显示 唯一模式Apache spark 如何在spark中读取orc事务配置单元表?,apache-spark,hive,apache-spark-sql,orc,Apache Spark,Hive,Apache Spark Sql,Orc,如何在spark中读取orc事务配置单元表 我在通过spark读取ORC事务表时遇到了问题,我得到了配置单元表的模式,但无法读取实际数据 请参见完整场景: 现在我试图从Spark sql访问Hive Orc数据,但它显示 唯一模式 >spark.sql("select * from hello").show() 输出:id,name您需要在末尾添加一个操作以强制其运行查询: spark.sql("Select * From Hello").show() (此处
>spark.sql("select * from hello").show()
输出:id,name您需要在末尾添加一个操作以强制其运行查询:
spark.sql("Select * From Hello").show()
(此处默认显示20行)
或
查看两行输出数据
这些只是可以在数据帧上执行的操作的示例。spark目前(2.3版)不完全符合配置单元事务表。解决方法是在任何事务之后对表进行压缩
ALTER TABLE Hello COMPACT“主要”
这种压缩应该使您能够看到数据。(一段时间后,数据被压缩)是的,作为一种解决方法,我们可以使用压缩,但当作业是微批量压缩时,则没有帮助。所以我决定使用JDBC调用。请在下面的链接中参考我对此问题的回答,或参考我的GIT页面-
问题在于如何从spark读取orc事务表,该语句中已经包含show()。查看上一个编辑时间戳,我相信原始的没有。
spark.sql("Select * From Hello").show()
spark.sql("Select * From Hello").take(2)