Apache spark Azure DataFactory集成HDInsight Spark问题

Apache spark Azure DataFactory集成HDInsight Spark问题,apache-spark,azure-hdinsight,azure-data-factory-2,Apache Spark,Azure Hdinsight,Azure Data Factory 2,当我使用数据工厂时,创建了HDInsight Spark activity,类型中有两个选项(脚本和jar),当我选择jar运行(我使用scala开发jar文件,它通过远程livy提交运行成功),失败日志显示: *stdout: SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/hdp/2.6.5.3009-43/spark2/jars/slf4j-log4j12

当我使用数据工厂时,创建了
HDInsight Spark activity
,类型中有两个选项(脚本和jar),当我选择jar运行(我使用scala开发jar文件,它通过
远程livy提交
运行成功),失败日志显示:

*stdout: 
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.5.3009-43/spark2/jars/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.5.3009-43/spark_llap/spark-llap-assembly-1.0.0.2.6.5.3009-43.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Error: --py-files given but primary resource is not a Python script
Run with --help for usage help or --verbose for debug output

stderr: 

YARN Diagnostics: 
java.lang.Exception: No YARN application is found with tag livy-batch-4-tpqnpjdw in 120 seconds. Please check your cluster status, it is may be very busy.
org.apache.livy.utils.SparkYarnApp.org$apache$livy$utils$SparkYarnApp$$getAppIdFromTag(SparkYarnApp.scala:182) org.apache.livy.utils.SparkYarnApp$$anonfun$1$$anonfun$4.apply(SparkYarnApp.scala:239) org.apache.livy.utils.SparkYarnApp$$anonfun$1$$anonfun$4.apply(SparkYarnApp.scala:236) scala.Option.getOrElse(Option.scala:120) org.apache.livy.utils.SparkYarnApp$$anonfun$1.apply$mcV$sp(SparkYarnApp.scala:236) org.apache.livy.Utils$$anon$1.run(Utils.scala:97)
*

但是当我选择script运行时(使用
python
开发scrits),它成功了,有人能解决这个问题吗?

这是HDInsight Spark活动中的预期行为

原因:在运行HDInsight Spark活动时,必须至少指定一个Python文件.jar文件

从错误消息“
error:--py文件已给出,但主要资源不是Python脚本”
”中可以清楚地看出它不是Python脚本

参考资料:


希望这有帮助。

这是HDInsight Spark活动中的预期行为

原因:在运行HDInsight Spark活动时,必须至少指定一个Python文件.jar文件

从错误消息“
error:--py文件已给出,但主要资源不是Python脚本”
”中可以清楚地看出它不是Python脚本

参考资料:


希望这有帮助。

当然,我指定了jar文件,我的意思是当我指定jar文件时,它运行失败,但我指定了python脚本,它运行成功。当然,我指定了jar文件,我的意思是当我指定jar文件时,它运行失败,但我指定了python脚本,它运行成功。