Python 无法使用pyspark将Xml数据读取到数据帧
我有一个xml文件,通过它我必须将数据读入pyspark。我正在使用spark xml api读取它,但它不起作用 我使用了pythonapi,但是它没有显示结果,并且抛出了一个异常 当我转到它建议的链接时,它没有显示xml的任何内容Python 无法使用pyspark将Xml数据读取到数据帧,python,xml,python-3.x,pyspark,apache-spark-sql,Python,Xml,Python 3.x,Pyspark,Apache Spark Sql,我有一个xml文件,通过它我必须将数据读入pyspark。我正在使用spark xml api读取它,但它不起作用 我使用了pythonapi,但是它没有显示结果,并且抛出了一个异常 当我转到它建议的链接时,它没有显示xml的任何内容 最后,我想读取xml文件,然后将其存储到pyspark数据帧。问题似乎是spark xml jar不可用 1) 尝试通过使用jar文件位置设置额外的类路径来创建spark会话 jar_path = "<path_of_jar>/com.databric
最后,我想读取xml文件,然后将其存储到pyspark数据帧。问题似乎是spark xml jar不可用 1) 尝试通过使用jar文件位置设置额外的类路径来创建spark会话
jar_path = "<path_of_jar>/com.databricks_spark-xml_2.10-0.4.1.jar"
spark = SparkSession.builder.appName("Spark - XML read").master("local[*]") \
.config("spark.jars", jar_path) \
.config("spark.executor.extraClassPath", jar_path) \
.config("spark.executor.extraLibrary", jar_path) \
.config("spark.driver.extraClassPath", jar_path) \
.getOrCreate()
jar\u path=“/com.databricks\u spark-xml\u 2.10-0.4.1.jar”
spark=SparkSession.builder.appName(“spark-XML读取”).master(“本地[*]”)\
.config(“spark.jars”,jar\u路径)\
.config(“spark.executor.extraClassPath”,jar\u路径)\
.config(“spark.executor.extraLibrary”,jar_路径)\
.config(“spark.driver.extraClassPath”,jar\u路径)\
.getOrCreate()
2) 通过提供spark xml包启动pyspark shell
pyspark--packages com.databricks:spark-xml_2.10:0.4.1
试试看:df=spark.read.format('xml').options(rowTag='receive').load('***.xml',schema=customSchema)
是的,我之前也试过,但不起作用。
df = spark.read \
.format('com.databricks.spark.xml') \
.options(rowTag='Receipt') \
.load('***.XML', schema = customSchema)
jar_path = "<path_of_jar>/com.databricks_spark-xml_2.10-0.4.1.jar"
spark = SparkSession.builder.appName("Spark - XML read").master("local[*]") \
.config("spark.jars", jar_path) \
.config("spark.executor.extraClassPath", jar_path) \
.config("spark.executor.extraLibrary", jar_path) \
.config("spark.driver.extraClassPath", jar_path) \
.getOrCreate()