Scala 需要解释使用未提交迭代器和回滚的hfile批量加载吗

Scala 需要解释使用未提交迭代器和回滚的hfile批量加载吗,scala,apache-spark,hbase,phoenix,Scala,Apache Spark,Hbase,Phoenix,我继承了一段Scala代码,它使用一种奇怪的方法将数据插入Phoenix HBase表。它打开一个JDBC连接并对目标执行UPSERT语句。然后它获得一个“未提交的数据计数器”,并累积。。。在回滚事务之前从连接句柄中删除的内容。收集的数据被组装成一个Spark RDD,并最终写入一个hfile,然后批量加载到目标表中 我的问题是:这种逻辑的基本原理是什么?我在哪里可以找到一个连贯的解释呢?我已经找到了至少一个关于这种方法的其他参考资料,但没有对其进行归因。如果这个习惯用法在任何地方都有文档记录或

我继承了一段Scala代码,它使用一种奇怪的方法将数据插入Phoenix HBase表。它打开一个JDBC连接并对目标执行UPSERT语句。然后它获得一个“未提交的数据计数器”,并累积。。。在回滚事务之前从连接句柄中删除的内容。收集的数据被组装成一个Spark RDD,并最终写入一个hfile,然后批量加载到目标表中

我的问题是:这种逻辑的基本原理是什么?我在哪里可以找到一个连贯的解释呢?我已经找到了至少一个关于这种方法的其他参考资料,但没有对其进行归因。如果这个习惯用法在任何地方都有文档记录或解释,请提供链接