Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/376.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Azure Databrick:需要在集群中添加什么配置';有助于并行执行的配置,以及如何跟踪应用的日志_Java_Multithreading_Scala_Apache Spark_Azure Databricks - Fatal编程技术网

Java Azure Databrick:需要在集群中添加什么配置';有助于并行执行的配置,以及如何跟踪应用的日志

Java Azure Databrick:需要在集群中添加什么配置';有助于并行执行的配置,以及如何跟踪应用的日志,java,multithreading,scala,apache-spark,azure-databricks,Java,Multithreading,Scala,Apache Spark,Azure Databricks,我创建了一个消息生成器工具,可以生成JSON格式的文件并直接写入azure data lake存储 场景1:为了提高性能,我在代码中应用了java多线程功能 将Java ExecutorService用于多线程: ExecutorService pool = Executors.newFixedThreadPool(5); 我尝试通过IDE在本地机器上执行,发现进程是并行执行的(线程数:5),执行时间有了很好的改进 当我使用azure Databricks Notebook执行具有以下设置的同

我创建了一个消息生成器工具,可以生成JSON格式的文件并直接写入azure data lake存储

场景1:为了提高性能,我在代码中应用了java多线程功能

将Java ExecutorService用于多线程:

ExecutorService pool = Executors.newFixedThreadPool(5);
我尝试通过IDE在本地机器上执行,发现进程是并行执行的(线程数:5),执行时间有了很好的改进

当我使用azure Databricks Notebook执行具有以下设置的同一jar文件时,发现该文件正在序列化中执行,执行时间没有任何改进:

群集模式:标准 Databrick运行时版本:7.0(包括Apache Spark 3.0.0、Scala 2.12) 驱动程序和工作程序类型:标准\u DS3\u v2

场景2:此外,我在代码中应用了logger(
java.util.logging.logger
),以便在作为jar文件执行时监视活动

已为记录器创建此实例:

static Logger logger = Logger.getLogger(DataLakeConnection.class.getName());
a) 我试图从Azure Databrick集群页面的“驱动程序日志”部分(跟踪stdout、stderr、log-4j)访问日志,但在jar文件中找不到任何作为日志应用的日志

b) 我试图通过笔记本使用命令从Azure Databrick的“DBFS”部分访问更多日志

我的问题是:

  • 我们是否需要为Azure Databrick中Spark cluster的配置添加任何允许并行执行的配置(多线程方面)

  • 我们如何详细跟踪内部日志(与jar文件中应用的内部日志相同)

  • 提前感谢:)