Apache spark PySpark无法通过sparkContext/hiveContext读取配置单元ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?
我曾尝试使用PySpark访问Hive ORC事务表(在HDFS上有底层增量文件),但无法通过sparkContext/hiveContext读取事务表 /mydim/三角洲0117202三角洲0117202 /mydim/delta_0117203_0117203 官方Apache spark PySpark无法通过sparkContext/hiveContext读取配置单元ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?,apache-spark,hadoop,hive,pyspark,pyspark-sql,Apache Spark,Hadoop,Hive,Pyspark,Pyspark Sql,我曾尝试使用PySpark访问Hive ORC事务表(在HDFS上有底层增量文件),但无法通过sparkContext/hiveContext读取事务表 /mydim/三角洲0117202三角洲0117202 /mydim/delta_0117203_0117203 官方Spark尚未支持蜂巢酸表,请获取 acid表的完全转储/增量转储到常规的蜂窝orc/拼花地板分区表,然后使用spark读取数据 有一个开放的Jira来添加对读取蜂巢酸表的支持 如果您在Acid表(从hive)上运行主要压缩,
Spark
尚未支持蜂巢酸表,请获取
acid表的完全转储/增量转储
到常规的蜂窝orc/拼花地板
分区表,然后使用spark读取数据
有一个开放的Jira来添加对读取蜂巢酸表的支持
- 如果您在Acid表(从hive)上运行
,则spark只能读取主要压缩
目录,而不能读取本jira中寻址的增量目录base\u XXX
- 使用本链接中提到的方法读取acid表有一些变通方法
- 我认为从
能够支持读取HiveAcid表HDP-3.X开始