elasticsearch,apache-spark-sql,cloudera,Apache Spark,elasticsearch,Apache Spark Sql,Cloudera" /> elasticsearch,apache-spark-sql,cloudera,Apache Spark,elasticsearch,Apache Spark Sql,Cloudera" />

Apache spark 使用Spark到Elasticsearch从Hbase查询时的性能问题

Apache spark 使用Spark到Elasticsearch从Hbase查询时的性能问题,apache-spark,elasticsearch,apache-spark-sql,cloudera,Apache Spark,elasticsearch,Apache Spark Sql,Cloudera,我在HBase数据库中有将近十亿行。我正在写一个Spark作业,它根据日期范围有效地从Hbase中提取数据,并将这些数据推送到弹性搜索中,以便批量编制索引。我使用带有JavaHBaseContext spark SQL和dataframe的hbase spark连接器来获取数据。稍后,我将把这些用于批量索引的数据推送到elasticsearch 我遇到的性能问题首先是从Hbase获取数据,然后编制索引并将数据推送到elasticsearch。请让我知道我应该如何有效地执行上述操作 注:Hbase

我在HBase数据库中有将近十亿行。我正在写一个Spark作业,它根据日期范围有效地从Hbase中提取数据,并将这些数据推送到弹性搜索中,以便批量编制索引。我使用带有JavaHBaseContext spark SQL和dataframe的hbase spark连接器来获取数据。稍后,我将把这些用于批量索引的数据推送到elasticsearch

我遇到的性能问题首先是从Hbase获取数据,然后编制索引并将数据推送到elasticsearch。请让我知道我应该如何有效地执行上述操作


注:Hbase由S3中的数据支持

请提供一些相关代码。还要检查如何从HBase检索数据?根据日期范围,您使用哪种过滤器?你能给我看看这个吗