Java Spark数据集中加载的文件列表_Java_Hadoop_Apache Spark_Azure Storage Blobs

Java Spark数据集中加载的文件列表

java hadoop apache-spark

Java Spark数据集中加载的文件列表,java,hadoop,apache-spark,azure-storage-blobs,Java,Hadoop,Apache Spark,Azure Storage Blobs,假设我们有下面的文件结构 realtime\temp\f1.txt、f2.txt、f3.txt 我们已经在spark 2中为这些文件创建了数据集。现在，在处理这些文件后，我们需要从源位置（realtime\temp）删除这些文件所以我们需要创建数据集所依据的所有文件的列表提前感谢您可以创建hadoop文件系统对象。然后列出目录中的文件。一旦你有了这个列表，只需在文件上迭代，一个接一个地删除它们 import org.apache.hadoop.conf.Configuration imp

假设我们有下面的文件结构 realtime\temp\f1.txt、f2.txt、f3.txt

我们已经在spark 2中为这些文件创建了数据集。现在，在处理这些文件后，我们需要从源位置（realtime\temp）删除这些文件

所以我们需要创建数据集所依据的所有文件的列表

提前感谢

您可以创建hadoop文件系统对象。然后列出目录中的文件。一旦你有了这个列表，只需在文件上迭代，一个接一个地删除它们

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path

var hfs = FileSystem.get(new Configuration())

  val allFileIterator = hfs.listFiles(new Path("/user/sngrover"), true)
  while (allFileIterator.hasNext()) {
    val filePath = allFileIterator.next().getPath
    hfs.delete(filePath, false)
 }