Apache spark Spark streaming为每个输入文件创建一个任务
我正在用Spark流处理输入文件的序列 Spark streaming为每个输入文件以及相应数量的分区和输出部件文件创建一个任务Apache spark Spark streaming为每个输入文件创建一个任务,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在用Spark流处理输入文件的序列 Spark streaming为每个输入文件以及相应数量的分区和输出部件文件创建一个任务 JavaPairInputDStream<Text, CustomDataType> myRDD = jssc.fileStream(path, Text.class, CustomDataType.class, SequenceFileInputFormat.class, new Function<Path,
JavaPairInputDStream<Text, CustomDataType> myRDD =
jssc.fileStream(path, Text.class, CustomDataType.class, SequenceFileInputFormat.class,
new Function<Path, Boolean>() {
@Override
public Boolean call(Path v1) throws Exception {
return Boolean.TRUE;
}
}, false);
JavaPairInputDStream myRDD=
jssc.fileStream(路径、Text.class、CustomDataType.class、SequenceFileInputFormat.class、,
新函数(){
@凌驾
公共布尔调用(路径v1)引发异常{
返回Boolean.TRUE;
}
},假);
例如,如果间隔中有100个输入文件
然后,输出文件中将有100个零件文件
每个零件文件代表什么?
(任务的输出)
如何减少输出文件(2或4…)的数量
这是否取决于分区的数量?每个文件代表一个RDD分区。如果您想减少分区的数量,您可以调用重新分区或与您希望拥有的分区数量合并