Java Spark数据集中加载的文件列表
假设我们有下面的文件结构 realtime\temp\f1.txt、f2.txt、f3.txt 我们已经在spark 2中为这些文件创建了数据集。 现在,在处理这些文件后,我们需要从源位置(realtime\temp)删除这些文件 所以我们需要创建数据集所依据的所有文件的列表Java Spark数据集中加载的文件列表,java,hadoop,apache-spark,azure-storage-blobs,Java,Hadoop,Apache Spark,Azure Storage Blobs,假设我们有下面的文件结构 realtime\temp\f1.txt、f2.txt、f3.txt 我们已经在spark 2中为这些文件创建了数据集。 现在,在处理这些文件后,我们需要从源位置(realtime\temp)删除这些文件 所以我们需要创建数据集所依据的所有文件的列表 提前感谢您可以创建hadoop文件系统对象。然后列出目录中的文件。 一旦你有了这个列表,只需在文件上迭代,一个接一个地删除它们 import org.apache.hadoop.conf.Configuration imp
提前感谢您可以创建hadoop文件系统对象。然后列出目录中的文件。 一旦你有了这个列表,只需在文件上迭代,一个接一个地删除它们
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
var hfs = FileSystem.get(new Configuration())
val allFileIterator = hfs.listFiles(new Path("/user/sngrover"), true)
while (allFileIterator.hasNext()) {
val filePath = allFileIterator.next().getPath
hfs.delete(filePath, false)
}