Apache spark 如何在Spark中获取文件名?
我的Spark应用程序以一个文件夹作为输入,其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名?试试这个。它对我很有用。希望它能帮助你Apache spark 如何在Spark中获取文件名?,apache-spark,Apache Spark,我的Spark应用程序以一个文件夹作为输入,其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名?试试这个。它对我很有用。希望它能帮助你 val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/") val files = data.map { case (filename, content) => filename} files.collect.foreach( filename => {
val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")
val files = data.map { case (filename, content) => filename}
files.collect.foreach( filename => {
doSomething(filename) // or print file name
})
试试这个,它对我有用。希望它能帮助你
val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")
val files = data.map { case (filename, content) => filename}
files.collect.foreach( filename => {
doSomething(filename) // or print file name
})
通常,您无法检索输入源的文件名 但是,如果使用Hadoop HDFS文件系统api,则可以列出目录的内容。并迭代所有文件。
但这不再是纯粹的火花计划。它取决于所使用的存储层(HDFS、amazon s3等)。通常您无法检索输入源的文件名 但是,如果使用Hadoop HDFS文件系统api,则可以列出目录的内容。并迭代所有文件。
但这不再是纯粹的火花计划。它取决于所使用的存储层(HDFS、AmazonS3等)