如何使用spark streaming使用scala从HBASE表获取数据_Scala_Apache Spark_Hbase_Spark Streaming

如何使用spark streaming使用scala从HBASE表获取数据

scala apache-spark hbase

如何使用spark streaming使用scala从HBASE表获取数据,scala,apache-spark,hbase,spark-streaming,Scala,Apache Spark,Hbase,Spark Streaming,我试图找到一种解决方案，使用spark streaming从HBASE表读取数据，然后将数据写入另一个HBASE表我在互联网上找到了许多要求创建数据流以从HDFS文件和所有文件中获取数据的示例，但我找不到任何从HBASE表中获取数据的示例例如，如果我有一个HBASE表“SAMPLE”，其列为“name”和“activeStatus”。如何使用spark streaming（新数据）从基于activeStatus列的表示例中检索数据欢迎使用spark streaming从HBASE表检索数据

我试图找到一种解决方案，使用spark streaming从HBASE表读取数据，然后将数据写入另一个HBASE表

我在互联网上找到了许多要求创建数据流以从HDFS文件和所有文件中获取数据的示例，但我找不到任何从HBASE表中获取数据的示例

例如，如果我有一个HBASE表“SAMPLE”，其列为“name”和“activeStatus”。如何使用spark streaming（新数据）从基于activeStatus列的表示例中检索数据

欢迎使用spark streaming从HBASE表检索数据的任何示例

问候,，

Adarsh K S

您需要的是一个使spark能够与hbase交互的库。Horton Works的shc就是这样一个扩展：

您可以通过多种方式从spark连接到hbase

Hortonwork Spark hbase连接器：
Unicredit hbase rdd：

Hortonworks SHC使用用户定义的目录，而hbase rdd将其读取为rdd，并可以转换为DF

使用toDF方法。hbase rdd具有批量写入选项（直接写入HFiles），是海量数据写入的首选选项。

您可以通过多种方式从spark连接到hbase

Hortonwork Spark hbase连接器：
Unicredit hbase rdd：

Hortonworks SHC使用用户定义的目录，而hbase rdd将其读取为rdd，并可以转换为DF 使用toDF方法。hbase rdd具有批量写入选项（直接写入HFiles），是海量数据写入的首选选项