Apache spark Spark批量删除hbase上的记录_Apache Spark_Hbase

Apache spark Spark批量删除hbase上的记录

apache-spark hbase

Apache spark Spark批量删除hbase上的记录,apache-spark,hbase,Apache Spark,Hbase,我发现很多关于从hbase在spark中加载数据的例子，对我来说最合适的是 Configuration config = HBaseConfiguration.create(); config.set(TableInputFormat.INPUT_TABLE, props.getProperty(ConfigConstants.HBASE_SRC_TABLE_NAME)); config.set(TableInputFormat.SCAN_MAXVERSIONS, props.g

我发现很多关于从hbase在spark中加载数据的例子，对我来说最合适的是

Configuration config = HBaseConfiguration.create();
    config.set(TableInputFormat.INPUT_TABLE, props.getProperty(ConfigConstants.HBASE_SRC_TABLE_NAME));
    config.set(TableInputFormat.SCAN_MAXVERSIONS, props.getProperty(ConfigConstants.HBASE_SRC_TABLE_VERSIONS));
    config.set(TableInputFormat.SCAN_COLUMN_FAMILY, HbaseConstants.MAPPING_FAMILY);
    config.set(TableInputFormat.SCAN_TIMERANGE_START, "0");
    config.set(TableInputFormat.SCAN_TIMERANGE_END, startTimestamp + "000");

    RDD<Tuple2<ImmutableBytesWritable, Result>> tupleRDD = context.newAPIHadoopRDD(config, TableInputFormat.class,
            ImmutableBytesWritable.class, Result.class);

但这给了我一个例外，如下所示

"main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not set.

有没有从spark中删除的方法？

事实证明，没有简单的方法可以做到这一点，我的最终解决方案是通过hbase删除功能获取数据并删除它们，而不是通过hbase的spark版本删除

没有提供解决方案

"main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not set.