将大型(200 GB)Hbase表加载到RDD中,而无需进行Hbase扫描

将大型(200 GB)Hbase表加载到RDD中,而无需进行Hbase扫描,hbase,Hbase,我希望将一个大的(200 GB)Hbase表加载到RDD中,而无需进行Hbase扫描,即直接将HFiles读取到RDD中 如果您可以共享任何示例/示例代码(或指向示例网页的链接),这些示例/示例代码显示了HFileInputformat的使用,就像我发现的那些指向HFileInputformat源代码的示例/示例代码一样,那将非常棒 不确定这里提到的2012/2013年的危险是否仍然适用-我在.94中发现了这一点 但危险依然存在。如果同时发生压缩或区域分割,将影响您的结果。感谢ozhang的指点

我希望将一个大的(200 GB)Hbase表加载到RDD中,而无需进行Hbase扫描,即直接将HFiles读取到RDD中

如果您可以共享任何示例/示例代码(或指向示例网页的链接),这些示例/示例代码显示了HFileInputformat的使用,就像我发现的那些指向HFileInputformat源代码的示例/示例代码一样,那将非常棒

不确定这里提到的2012/2013年的危险是否仍然适用-

我在.94中发现了这一点


但危险依然存在。如果同时发生压缩或区域分割,将影响您的结果。

感谢ozhang的指点。正如我提到的,该链接只显示了HFileInputFormat类的源代码。我正在寻找一个使用HFileInputformat的示例。我还想知道(如果?)这将如何与具有多个列族的HBase表一起工作,因为每个列族都有自己的HFile,并且MR framework提供的“拆分”是按区域进行的。也不确定HFileInputformat返回的键和值是什么,例如,如果在列族HFile中有多个列存储为KV对。