Apache spark PySpark无法通过sparkContext/hiveContext读取配置单元ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?

Apache spark PySpark无法通过sparkContext/hiveContext读取配置单元ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?,apache-spark,hadoop,hive,pyspark,pyspark-sql,Apache Spark,Hadoop,Hive,Pyspark,Pyspark Sql,我曾尝试使用PySpark访问Hive ORC事务表(在HDFS上有底层增量文件),但无法通过sparkContext/hiveContext读取事务表 /mydim/三角洲0117202三角洲0117202 /mydim/delta_0117203_0117203 官方Spark尚未支持蜂巢酸表,请获取 acid表的完全转储/增量转储到常规的蜂窝orc/拼花地板分区表,然后使用spark读取数据 有一个开放的Jira来添加对读取蜂巢酸表的支持 如果您在Acid表(从hive)上运行主要压缩,

我曾尝试使用PySpark访问Hive ORC事务表(在HDFS上有底层增量文件),但无法通过sparkContext/hiveContext读取事务表

/mydim/三角洲0117202三角洲0117202

/mydim/delta_0117203_0117203

官方
Spark
尚未支持蜂巢酸表,请获取
acid表的完全转储/增量转储
到常规的
蜂窝orc/拼花地板
分区表,然后使用spark读取数据

有一个开放的Jira来添加对读取蜂巢酸表的支持

  • 如果您在Acid表(从hive)上运行
    主要压缩
    ,则spark只能读取
    base\u XXX
    目录,而不能读取本jira中寻址的增量目录

  • 使用本链接中提到的方法读取acid表有一些变通方法

  • 我认为
    HDP-3.X开始
    能够支持读取HiveAcid表


我已经测试过了。从CDP-HDP-3.0开始,将Hive Warehouse连接器库/插件与Spark一起使用,将使Hive表(ORC格式表)符合ACID要求