将大型（200 GB）Hbase表加载到RDD中，而无需进行Hbase扫描_Hbase

将大型（200 GB）Hbase表加载到RDD中，而无需进行Hbase扫描

hbase

将大型（200 GB）Hbase表加载到RDD中，而无需进行Hbase扫描,hbase,Hbase,我希望将一个大的（200 GB）Hbase表加载到RDD中，而无需进行Hbase扫描，即直接将HFiles读取到RDD中如果您可以共享任何示例/示例代码（或指向示例网页的链接），这些示例/示例代码显示了HFileInputformat的使用，就像我发现的那些指向HFileInputformat源代码的示例/示例代码一样，那将非常棒不确定这里提到的2012/2013年的危险是否仍然适用-我在.94中发现了这一点但危险依然存在。如果同时发生压缩或区域分割，将影响您的结果。感谢ozhang的指点

我希望将一个大的（200 GB）Hbase表加载到RDD中，而无需进行Hbase扫描，即直接将HFiles读取到RDD中

如果您可以共享任何示例/示例代码（或指向示例网页的链接），这些示例/示例代码显示了HFileInputformat的使用，就像我发现的那些指向HFileInputformat源代码的示例/示例代码一样，那将非常棒

不确定这里提到的2012/2013年的危险是否仍然适用-

我在.94中发现了这一点

但危险依然存在。如果同时发生压缩或区域分割，将影响您的结果。

感谢ozhang的指点。正如我提到的，该链接只显示了HFileInputFormat类的源代码。我正在寻找一个使用HFileInputformat的示例。我还想知道（如果？）这将如何与具有多个列族的HBase表一起工作，因为每个列族都有自己的HFile，并且MR framework提供的“拆分”是按区域进行的。也不确定HFileInputformat返回的键和值是什么，例如，如果在列族HFile中有多个列存储为KV对。