Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件
我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件,并将已经读取的XML文件删除到另一个目录中 到目前为止我在Pypark中尝试过的Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件,python,apache-spark,pyspark,apache-spark-xml,Python,Apache Spark,Pyspark,Apache Spark Xml,我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件,并将已经读取的XML文件删除到另一个目录中 到目前为止我在Pypark中尝试过的 li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"] df1 = spark.read.format("com.databricks.spark.xml").opti
li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li)
df1.show()
但我得到一个错误:IllegalArgumentException:必须为XML数据指定“路径”
在列表中存储XML文件的完整路径后,是否有任何方法可以读取文件?
或者请建议另一种方法