Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在Spark中获取文件名?_Apache Spark - Fatal编程技术网

Apache spark 如何在Spark中获取文件名?

Apache spark 如何在Spark中获取文件名?,apache-spark,Apache Spark,我的Spark应用程序以一个文件夹作为输入,其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名?试试这个。它对我很有用。希望它能帮助你 val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/") val files = data.map { case (filename, content) => filename} files.collect.foreach( filename => {

我的Spark应用程序以一个文件夹作为输入,其中包含大量文本文件。如何以编程方式获取每个输入拆分的文件名?

试试这个。它对我很有用。希望它能帮助你

val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")

val files = data.map { case (filename, content) => filename}

files.collect.foreach( filename => {
    doSomething(filename) // or print file name

}) 

试试这个,它对我有用。希望它能帮助你

val data = sc.wholeTextFiles("hdfs://master:port/vijay/mywordcount/")

val files = data.map { case (filename, content) => filename}

files.collect.foreach( filename => {
    doSomething(filename) // or print file name

}) 

通常,您无法检索输入源的文件名

但是,如果使用Hadoop HDFS文件系统api,则可以列出目录的内容。并迭代所有文件。

但这不再是纯粹的火花计划。它取决于所使用的存储层(HDFS、amazon s3等)。

通常您无法检索输入源的文件名

但是,如果使用Hadoop HDFS文件系统api,则可以列出目录的内容。并迭代所有文件。
但这不再是纯粹的火花计划。它取决于所使用的存储层(HDFS、AmazonS3等)