Apache spark 如何在Spark中获取文件名？_Apache Spark

Apache spark 如何在Spark中获取文件名？

apache-spark

Apache spark 如何在Spark中获取文件名？,apache-spark,Apache Spark,我的Spark应用程序以一个文件夹作为输入，其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名？试试这个。它对我很有用。希望它能帮助你 val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/") val files = data.map { case (filename, content) => filename} files.collect.foreach( filename => {

我的Spark应用程序以一个文件夹作为输入，其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名？

试试这个。它对我很有用。希望它能帮助你

val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")

val files = data.map { case (filename, content) => filename}

files.collect.foreach( filename => {
    doSomething(filename) // or print file name

})

试试这个，它对我有用。希望它能帮助你

val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")

val files = data.map { case (filename, content) => filename}

files.collect.foreach( filename => {
    doSomething(filename) // or print file name

})

通常，您无法检索输入源的文件名

但是，如果使用Hadoop HDFS文件系统api，则可以列出目录的内容。并迭代所有文件。

但这不再是纯粹的火花计划。它取决于所使用的存储层（HDFS、amazon s3等）。

通常您无法检索输入源的文件名

但是，如果使用Hadoop HDFS文件系统api，则可以列出目录的内容。并迭代所有文件。
但这不再是纯粹的火花计划。它取决于所使用的存储层（HDFS、AmazonS3等）