Google云笔记本-Pyspark:java.lang.ClassNotFoundException:未能找到数据源:xml

Google云笔记本-Pyspark:java.lang.ClassNotFoundException:未能找到数据源:xml,pyspark,databricks,apache-spark-xml,Pyspark,Databricks,Apache Spark Xml,我需要使用google云笔记本中的com.databricks.spark.xml 尝试: import os #os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.11:0.6.0 pyspark-shell' os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.10:0.4.1 pyspark-sh

我需要使用google云笔记本中的com.databricks.spark.xml

尝试:

import os
#os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.11:0.6.0 pyspark-shell'
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.10:0.4.1 pyspark-shell'

articles_df = spark.read.format('xml'). \
    options(rootTag='articles', rowTag='article'). \
    load('gs://....-20180831.xml', schema=articles_schema)
但我得到了:

java.lang.ClassNotFoundException:未能找到数据源:xml。请在以下网址查找包裹:


这可能是一个答案:如果有人需要它,我必须将spark-xml.jar添加到pyspark的“jars”文件夹中。如果需要在DataProc上运行它,那么在从cli运行创建DataProc的命令时,需要在属性上指定它:“--properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.6.0”