如何使用spark streaming使用scala从HBASE表获取数据

如何使用spark streaming使用scala从HBASE表获取数据,scala,apache-spark,hbase,spark-streaming,Scala,Apache Spark,Hbase,Spark Streaming,我试图找到一种解决方案,使用spark streaming从HBASE表读取数据,然后将数据写入另一个HBASE表 我在互联网上找到了许多要求创建数据流以从HDFS文件和所有文件中获取数据的示例,但我找不到任何从HBASE表中获取数据的示例 例如,如果我有一个HBASE表“SAMPLE”,其列为“name”和“activeStatus”。如何使用spark streaming(新数据)从基于activeStatus列的表示例中检索数据 欢迎使用spark streaming从HBASE表检索数据

我试图找到一种解决方案,使用spark streaming从HBASE表读取数据,然后将数据写入另一个HBASE表

我在互联网上找到了许多要求创建数据流以从HDFS文件和所有文件中获取数据的示例,但我找不到任何从HBASE表中获取数据的示例

例如,如果我有一个HBASE表“SAMPLE”,其列为“name”和“activeStatus”。如何使用spark streaming(新数据)从基于activeStatus列的表示例中检索数据

欢迎使用spark streaming从HBASE表检索数据的任何示例

问候,,
Adarsh K S

您需要的是一个使spark能够与hbase交互的库。Horton Works的shc就是这样一个扩展:


您需要的是一个使spark能够与hbase交互的库。Horton Works的shc就是这样一个扩展:


您可以通过多种方式从spark连接到hbase

  • Hortonwork Spark hbase连接器:
  • Unicredit hbase rdd:
Hortonworks SHC使用用户定义的 目录,而hbase rdd将其读取为rdd,并可以转换为DF
使用toDF方法。hbase rdd具有批量写入选项(直接写入HFiles),是海量数据写入的首选选项。

您可以通过多种方式从spark连接到hbase

  • Hortonwork Spark hbase连接器:
  • Unicredit hbase rdd:
Hortonworks SHC使用用户定义的 目录,而hbase rdd将其读取为rdd,并可以转换为DF 使用toDF方法。hbase rdd具有批量写入选项(直接写入HFiles),是海量数据写入的首选选项