Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ajax/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在scala中递归读取文件_Scala_Apache Spark_Pyspark - Fatal编程技术网

在scala中递归读取文件

在scala中递归读取文件,scala,apache-spark,pyspark,Scala,Apache Spark,Pyspark,我正在尝试将嵌套在许多文件夹中的一组XML文件读入spark中的序列文件。我可以使用函数recursiveListFiles从中读取文件名 但是如何在这里将文件内容作为单独的列来读取呢 使用sparks wholeTextFiles方法怎么样?然后自己解析XML?我尝试了wholeTextFiles方法,但我不能使用.XML,它只用于选择文件夹中的XML文件。类似于sc.wholeTextFiles(“mainpath/*.xml”) import java.io.File def recurs

我正在尝试将嵌套在许多文件夹中的一组XML文件读入spark中的序列文件。我可以使用函数recursiveListFiles从中读取文件名


但是如何在这里将文件内容作为单独的列来读取呢

使用sparks wholeTextFiles方法怎么样?然后自己解析XML?

我尝试了wholeTextFiles方法,但我不能使用.XML,它只用于选择文件夹中的XML文件。类似于
sc.wholeTextFiles(“mainpath/*.xml”)
import java.io.File
def recursiveListFiles(f: File): Array[File] = {
 val these = f.listFiles
 these ++ these.filter(_.isDirectory).flatMap(recursiveListFiles)
}