Java Spark,忽略一些输入文件
我有hdfs上的数据,文件夹结构类似Java Spark,忽略一些输入文件,java,apache-spark,Java,Apache Spark,我有hdfs上的数据,文件夹结构类似 hdfs://ns1/abc/20200101/00/00/ hdfs://ns1/abc/20200101/00/01/ hdfs://ns1/abc/20200101/00/02/ 基本上,我们每分钟创建一个文件夹,并在文件夹中放入数百个文件 我们有一个spark(2.3)应用程序(用java编写),它每天处理数据,所以我们使用的输入路径如下hdfs://ns1/abc/20200101,简单明了,但有时,一些文件已损坏或大小为零,这会导致整个sp
- hdfs://ns1/abc/20200101/00/00/
- hdfs://ns1/abc/20200101/00/01/
- hdfs://ns1/abc/20200101/00/02/
谢谢。既然坏文件有不同的扩展名,为什么不直接用
hdfs://ns1/abc/20200101/*/*/filepattern*.goodextension
?@ernest_k,问题是这些好文件都没有扩展名。。。