缺少使用PySpark将数据摄取到Azure data Explorer的库_Azure_Pyspark_Azure Data Explorer

缺少使用PySpark将数据摄取到Azure data Explorer的库

azure pyspark

缺少使用PySpark将数据摄取到Azure data Explorer的库,azure,pyspark,azure-data-explorer,Azure,Pyspark,Azure Data Explorer,我正试图通过PySpark和PyCharm IDE将数据摄取到Azure data Explorer中。但是，在运行代码时，我遇到了很多与缺少库有关的问题根据，我需要安装和两个依赖项jar和在下载了所有这3个jar并将它们导入PySpark之后，我无法继续我的数据摄取，它不断返回我丢失的库错误。第一个是azure存储库，然后我安装并导入了jar，它要求adal4j库，我也这样做，它要求oauth2库，然后是json库，azure客户端身份验证库，javax邮件库，等等我已经安装了10多个罐

我正试图通过PySpark和PyCharm IDE将数据摄取到Azure data Explorer中。但是，在运行代码时，我遇到了很多与缺少库有关的问题

根据，我需要安装和两个依赖项jar和

在下载了所有这3个jar并将它们导入PySpark之后，我无法继续我的数据摄取，它不断返回我丢失的库错误。第一个是azure存储库，然后我安装并导入了jar，它要求adal4j库，我也这样做，它要求oauth2库，然后是json库，azure客户端身份验证库，javax邮件库，等等

我已经安装了10多个罐子，但我仍然无法运行此摄取。我做错什么了吗

我的PySpark版本是2.4。您可以在下面看到我的代码：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .appName("Teste") \
    .config('spark.jars', 'kusto-spark_2.4_2.11-2.5.2.jar,kusto-data-2.4.1.jar,kusto-ingest-2.4.1.jar,azure-storage-8.3.0.jar,json-20180813.jar,adal4j-1.6.5.jar') \
    .getOrCreate()

# loading a test csv file
df = spark.read.csv('MOCK_DATA.csv', header=True, sep=',')

df.write.format("com.microsoft.kusto.spark.datasource")\
  .option("kustoCluster", "myclustername")\
  .option("kustoDatabase", "mydatabase")\
  .option("kustoTable", "mytable")\
  .option("kustoAadAppId", "myappid")\
  .option("kustoAadAppSecret", "mysecret")\
  .option("kustoAadAuthorityID", "myautorityid")\
  .mode("Append")\
  .save()

当使用非maven安装时，您需要使用一个包含所有依赖项的JAR。您可以从github发布版获取：或者通过克隆repo并运行

mvn组装：单人

你好，Ohad Bitton，非常感谢您的回答。很抱歉反应太晚，我以前真的没有时间测试它。我已经下载了最新版本的源代码并运行了命令mvn assembly:single。生成已成功完成，但生成的JAR在运行read table命令时返回错误“java.lang.ClassNotFoundException:未能找到数据源：com.microsoft.kusto.spark.datasource”。我用Spark 2.4.0、2.4.2、2.4.3和2.4.4对它进行了测试。同样的代码也适用于发布在repo for Spark 3.0上的JAR。但是我需要它为Spark 2.4工作。