Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/xml/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 无法使用pyspark将Xml数据读取到数据帧_Python_Xml_Python 3.x_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 无法使用pyspark将Xml数据读取到数据帧

Python 无法使用pyspark将Xml数据读取到数据帧,python,xml,python-3.x,pyspark,apache-spark-sql,Python,Xml,Python 3.x,Pyspark,Apache Spark Sql,我有一个xml文件,通过它我必须将数据读入pyspark。我正在使用spark xml api读取它,但它不起作用 我使用了pythonapi,但是它没有显示结果,并且抛出了一个异常 当我转到它建议的链接时,它没有显示xml的任何内容 最后,我想读取xml文件,然后将其存储到pyspark数据帧。问题似乎是spark xml jar不可用 1) 尝试通过使用jar文件位置设置额外的类路径来创建spark会话 jar_path = "<path_of_jar>/com.databric

我有一个xml文件,通过它我必须将数据读入pyspark。我正在使用spark xml api读取它,但它不起作用

我使用了pythonapi,但是它没有显示结果,并且抛出了一个异常

当我转到它建议的链接时,它没有显示xml的任何内容


最后,我想读取xml文件,然后将其存储到pyspark数据帧。

问题似乎是spark xml jar不可用

1) 尝试通过使用jar文件位置设置额外的类路径来创建spark会话

jar_path = "<path_of_jar>/com.databricks_spark-xml_2.10-0.4.1.jar"
spark = SparkSession.builder.appName("Spark - XML read").master("local[*]") \
    .config("spark.jars", jar_path) \
    .config("spark.executor.extraClassPath", jar_path) \
    .config("spark.executor.extraLibrary", jar_path) \
    .config("spark.driver.extraClassPath", jar_path) \
    .getOrCreate()
jar\u path=“/com.databricks\u spark-xml\u 2.10-0.4.1.jar”
spark=SparkSession.builder.appName(“spark-XML读取”).master(“本地[*]”)\
.config(“spark.jars”,jar\u路径)\
.config(“spark.executor.extraClassPath”,jar\u路径)\
.config(“spark.executor.extraLibrary”,jar_路径)\
.config(“spark.driver.extraClassPath”,jar\u路径)\
.getOrCreate()
2) 通过提供spark xml包启动pyspark shell


pyspark--packages com.databricks:spark-xml_2.10:0.4.1

试试看:
df=spark.read.format('xml').options(rowTag='receive').load('***.xml',schema=customSchema)
是的,我之前也试过,但不起作用。
df = spark.read \
.format('com.databricks.spark.xml') \
.options(rowTag='Receipt') \
.load('***.XML', schema = customSchema)
jar_path = "<path_of_jar>/com.databricks_spark-xml_2.10-0.4.1.jar"
spark = SparkSession.builder.appName("Spark - XML read").master("local[*]") \
    .config("spark.jars", jar_path) \
    .config("spark.executor.extraClassPath", jar_path) \
    .config("spark.executor.extraLibrary", jar_path) \
    .config("spark.driver.extraClassPath", jar_path) \
    .getOrCreate()