Hadoop Hbase中特定字段的批量更新

Hadoop Hbase中特定字段的批量更新,hadoop,hbase,bigdata,hadoop2,Hadoop,Hbase,Bigdata,Hadoop2,我在使用Hbase时遇到了一个场景。最初,我必须批量上传一个csv文件到Hbase表中。通过使用Hbase批量加载,我可以成功地做到这一点。 现在,我想通过与提供的新csv进行比较来更新hbase表中的特定字段,如果该值已更新,则必须维护一个表示rowkey已更新的标志。任何关于我如何能轻松做到这一点的提示。 非常感谢您的帮助 谢谢HBase为每个单元维护版本。只要带着row键,就可以获得该行的句柄,并且可以使用put添加更新的列。它在内部维护版本,您也可以访问更新值的历史记录 然而,正如我所看

我在使用Hbase时遇到了一个场景。最初,我必须批量上传一个csv文件到Hbase表中。通过使用Hbase批量加载,我可以成功地做到这一点。 现在,我想通过与提供的新csv进行比较来更新hbase表中的特定字段,如果该值已更新,则必须维护一个表示rowkey已更新的标志。任何关于我如何能轻松做到这一点的提示。 非常感谢您的帮助


谢谢

HBase为每个单元维护版本。只要带着row键,就可以获得该行的句柄,并且可以使用put添加更新的列。它在内部维护版本,您也可以访问更新值的历史记录

然而,正如我所看到的,你也需要比较。因此,在以最快的速度批量加载之后,使用map reduce作为源和汇。请参阅第7.2.2节。 其思想是让mapreduce执行扫描,在map中进行比较,并将新更新的put写入输出。它就像一个基本的获取、修改和更新序列。但在处理大量数据时,我们使用了map-reduce并行特性