Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件_Python_Apache Spark_Pyspark_Apache Spark Xml

Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件

python apache-spark pyspark

Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件,python,apache-spark,pyspark,apache-spark-xml,Python,Apache Spark,Pyspark,Apache Spark Xml,我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件，并将已经读取的XML文件删除到另一个目录中到目前为止我在Pypark中尝试过的 li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"] df1 = spark.read.format("com.databricks.spark.xml").opti

我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件，并将已经读取的XML文件删除到另一个目录中

到目前为止我在Pypark中尝试过的

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我得到一个错误：IllegalArgumentException:必须为XML数据指定“路径”

在列表中存储XML文件的完整路径后，是否有任何方法可以读取文件？或者请建议另一种方法