Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/312.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件_Python_Apache Spark_Pyspark_Apache Spark Xml - Fatal编程技术网

Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件

Python 从Pyspark dataframe中包含100个文件的目录中加载前10个XML文件,python,apache-spark,pyspark,apache-spark-xml,Python,Apache Spark,Pyspark,Apache Spark Xml,我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件,并将已经读取的XML文件删除到另一个目录中 到目前为止我在Pypark中尝试过的 li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"] df1 = spark.read.format("com.databricks.spark.xml").opti

我想从一个包含100个文件的目录中加载每个迭代中的前10个XML文件,并将已经读取的XML文件删除到另一个目录中

到目前为止我在Pypark中尝试过的

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()
但我得到一个错误:IllegalArgumentException:必须为XML数据指定“路径”

在列表中存储XML文件的完整路径后,是否有任何方法可以读取文件? 或者请建议另一种方法