如何在Spark或Scala中检查文件是否为有效的gz

如何在Spark或Scala中检查文件是否为有效的gz,scala,apache-spark,Scala,Apache Spark,我的HDFS目录中有一些文件,我想使用Spark处理它们,但当我的进程遇到损坏的.gz文件时,我看到的真正问题是,当有损坏的.gz文件时,完成运行需要几个小时。有人能告诉我如何解决这个问题吗 一旦解决方案出现,我就知道不要复制损坏的gz或将所有未损坏的文件移动到不同的位置,并使我的工作指向该目录,但我想知道spark能否处理这些情况。您看过java.util.zip吗?将文件放入hdfs时使用校验和。比较它们是否相等。Spark的工作不是区分文件是否完全上传。

我的HDFS目录中有一些文件,我想使用Spark处理它们,但当我的进程遇到损坏的.gz文件时,我看到的真正问题是,当有损坏的.gz文件时,完成运行需要几个小时。有人能告诉我如何解决这个问题吗


一旦解决方案出现,我就知道不要复制损坏的gz或将所有未损坏的文件移动到不同的位置,并使我的工作指向该目录,但我想知道spark能否处理这些情况。

您看过java.util.zip吗?将文件放入hdfs时使用校验和。比较它们是否相等。Spark的工作不是区分文件是否完全上传。