缺少使用PySpark将数据摄取到Azure data Explorer的库

缺少使用PySpark将数据摄取到Azure data Explorer的库,azure,pyspark,azure-data-explorer,Azure,Pyspark,Azure Data Explorer,我正试图通过PySpark和PyCharm IDE将数据摄取到Azure data Explorer中。但是,在运行代码时,我遇到了很多与缺少库有关的问题 根据,我需要安装和两个依赖项jar和 在下载了所有这3个jar并将它们导入PySpark之后,我无法继续我的数据摄取,它不断返回我丢失的库错误。第一个是azure存储库,然后我安装并导入了jar,它要求adal4j库,我也这样做,它要求oauth2库,然后是json库,azure客户端身份验证库,javax邮件库,等等 我已经安装了10多个罐

我正试图通过PySpark和PyCharm IDE将数据摄取到Azure data Explorer中。但是,在运行代码时,我遇到了很多与缺少库有关的问题

根据,我需要安装和两个依赖项jar和

在下载了所有这3个jar并将它们导入PySpark之后,我无法继续我的数据摄取,它不断返回我丢失的库错误。第一个是azure存储库,然后我安装并导入了jar,它要求adal4j库,我也这样做,它要求oauth2库,然后是json库,azure客户端身份验证库,javax邮件库,等等

我已经安装了10多个罐子,但我仍然无法运行此摄取。我做错什么了吗

我的PySpark版本是2.4。您可以在下面看到我的代码:

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Teste") \
    .config('spark.jars', 'kusto-spark_2.4_2.11-2.5.2.jar,kusto-data-2.4.1.jar,kusto-ingest-2.4.1.jar,azure-storage-8.3.0.jar,json-20180813.jar,adal4j-1.6.5.jar') \
    .getOrCreate()

# loading a test csv file
df = spark.read.csv('MOCK_DATA.csv', header=True, sep=',')

df.write.format("com.microsoft.kusto.spark.datasource")\
  .option("kustoCluster", "myclustername")\
  .option("kustoDatabase", "mydatabase")\
  .option("kustoTable", "mytable")\
  .option("kustoAadAppId", "myappid")\
  .option("kustoAadAppSecret", "mysecret")\
  .option("kustoAadAuthorityID", "myautorityid")\
  .mode("Append")\
  .save()

当使用非maven安装时,您需要使用一个包含所有依赖项的JAR。 您可以从github发布版获取: 或者通过克隆repo并运行
mvn组装:单人

你好,Ohad Bitton,非常感谢您的回答。很抱歉反应太晚,我以前真的没有时间测试它。我已经下载了最新版本的源代码并运行了命令mvn assembly:single。生成已成功完成,但生成的JAR在运行read table命令时返回错误“java.lang.ClassNotFoundException:未能找到数据源:com.microsoft.kusto.spark.datasource”。我用Spark 2.4.0、2.4.2、2.4.3和2.4.4对它进行了测试。同样的代码也适用于发布在repo for Spark 3.0上的JAR。但是我需要它为Spark 2.4工作。