Java 在将avro读取到rdd时,是否有方法忽略零长度文件?
我在hdfs中有一个文件夹,其中包含spark工作的源代码。有些文件的长度为零,因此我得到:Java 在将avro读取到rdd时,是否有方法忽略零长度文件?,java,hadoop,apache-spark,hdfs,Java,Hadoop,Apache Spark,Hdfs,我在hdfs中有一个文件夹,其中包含spark工作的源代码。有些文件的长度为零,因此我得到:IOExeption:不是Avro数据文件。如果我移除它们,一切正常,有没有办法忽略它们 我用Java将Avro读入rdd的方式: JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable> pairRDD = (JavaPairRDD<AvroWrapper<GenericRecord>, Null
IOExeption:不是Avro数据文件
。如果我移除它们,一切正常,有没有办法忽略它们
我用Java将Avro读入rdd的方式:
JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable> pairRDD =
(JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable>)sc.hadoopFile(inputPath, AvroInputFormat.class, AvroWrapper.class, NullWritable.class);
javapairdd pairdd=
(javapairdd)sc.hadoopFile(inputPath,AvroInputFormat.class,AvroWrapper.class,NullWritable.class);