Scala 需要解释使用未提交迭代器和回滚的hfile批量加载吗_Scala_Apache Spark_Hbase_Phoenix

Scala 需要解释使用未提交迭代器和回滚的hfile批量加载吗

scala apache-spark hbase

Scala 需要解释使用未提交迭代器和回滚的hfile批量加载吗,scala,apache-spark,hbase,phoenix,Scala,Apache Spark,Hbase,Phoenix,我继承了一段Scala代码，它使用一种奇怪的方法将数据插入Phoenix HBase表。它打开一个JDBC连接并对目标执行UPSERT语句。然后它获得一个“未提交的数据计数器”，并累积。。。在回滚事务之前从连接句柄中删除的内容。收集的数据被组装成一个Spark RDD，并最终写入一个hfile，然后批量加载到目标表中我的问题是：这种逻辑的基本原理是什么？我在哪里可以找到一个连贯的解释呢？我已经找到了至少一个关于这种方法的其他参考资料，但没有对其进行归因。如果这个习惯用法在任何地方都有文档记录或

我继承了一段Scala代码，它使用一种奇怪的方法将数据插入Phoenix HBase表。它打开一个JDBC连接并对目标执行UPSERT语句。然后它获得一个“未提交的数据计数器”，并累积。。。在回滚事务之前从连接句柄中删除的内容。收集的数据被组装成一个Spark RDD，并最终写入一个hfile，然后批量加载到目标表中

我的问题是：这种逻辑的基本原理是什么？我在哪里可以找到一个连贯的解释呢？我已经找到了至少一个关于这种方法的其他参考资料，但没有对其进行归因。如果这个习惯用法在任何地方都有文档记录或解释，请提供链接