Hadoop 从HBase读取最新插入/更新的100条记录

Hadoop 从HBase读取最新插入/更新的100条记录,hadoop,hbase,Hadoop,Hbase,我需要从HBase表中读取最新插入/更新的行,该表的行总数约为1500万 我在这个论坛上看到很少有人建议在扫描中使用时间范围,但在扫描中使用时间范围,我们只能在某个时间点获得记录的“最新”状态 请告知我们如何检索上次插入/更新的记录。谢谢 若要检索最后插入的行,请在rowkey的前缀中添加反向时间戳。所以最新的记录会在你的扫描中排在第一位。在更新的情况下,删除旧行并插入带有新反向时间戳的新行。在更新的情况下,如果您同意删除和插入的成本,这将对您有效,因为它使您的获取非常高效。您将只扫描必要的记录

我需要从HBase表中读取最新插入/更新的行,该表的行总数约为1500万

我在这个论坛上看到很少有人建议在扫描中使用时间范围,但在扫描中使用时间范围,我们只能在某个时间点获得记录的“最新”状态


请告知我们如何检索上次插入/更新的记录。谢谢

若要检索最后插入的行,请在rowkey的前缀中添加反向时间戳。所以最新的记录会在你的扫描中排在第一位。在更新的情况下,删除旧行并插入带有新反向时间戳的新行。在更新的情况下,如果您同意删除和插入的成本,这将对您有效,因为它使您的获取非常高效。您将只扫描必要的记录。

在设计表时可以考虑此解决方案。在上述情况下,数据已经存在,并且有数百万行。