Apache spark Spark streaming为每个输入文件创建一个任务

Apache spark Spark streaming为每个输入文件创建一个任务,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在用Spark流处理输入文件的序列 Spark streaming为每个输入文件以及相应数量的分区和输出部件文件创建一个任务 JavaPairInputDStream<Text, CustomDataType> myRDD = jssc.fileStream(path, Text.class, CustomDataType.class, SequenceFileInputFormat.class, new Function<Path,

我正在用Spark流处理输入文件的序列

Spark streaming为每个输入文件以及相应数量的分区和输出部件文件创建一个任务

JavaPairInputDStream<Text, CustomDataType> myRDD =
        jssc.fileStream(path, Text.class, CustomDataType.class, SequenceFileInputFormat.class,
            new Function<Path, Boolean>() {
          @Override
          public Boolean call(Path v1) throws Exception {
            return Boolean.TRUE;
          }
        }, false);
JavaPairInputDStream myRDD=
jssc.fileStream(路径、Text.class、CustomDataType.class、SequenceFileInputFormat.class、,
新函数(){
@凌驾
公共布尔调用(路径v1)引发异常{
返回Boolean.TRUE;
}
},假);
例如,如果间隔中有100个输入文件

然后,输出文件中将有100个零件文件

每个零件文件代表什么? (任务的输出)

如何减少输出文件(2或4…)的数量


这是否取决于分区的数量?

每个文件代表一个RDD分区。如果您想减少分区的数量,您可以调用重新分区或与您希望拥有的分区数量合并