Java Azure Databrick：需要在集群中添加什么配置'；有助于并行执行的配置，以及如何跟踪应用的日志_Java_Multithreading_Scala_Apache Spark_Azure Databricks

Java Azure Databrick：需要在集群中添加什么配置'；有助于并行执行的配置，以及如何跟踪应用的日志

java multithreading scala apache-spark

Java Azure Databrick：需要在集群中添加什么配置'；有助于并行执行的配置，以及如何跟踪应用的日志,java,multithreading,scala,apache-spark,azure-databricks,Java,Multithreading,Scala,Apache Spark,Azure Databricks,我创建了一个消息生成器工具，可以生成JSON格式的文件并直接写入azure data lake存储场景1:为了提高性能，我在代码中应用了java多线程功能将Java ExecutorService用于多线程： ExecutorService pool = Executors.newFixedThreadPool(5); 我尝试通过IDE在本地机器上执行，发现进程是并行执行的（线程数：5），执行时间有了很好的改进当我使用azure Databricks Notebook执行具有以下设置的同

我创建了一个消息生成器工具，可以生成JSON格式的文件并直接写入azure data lake存储

场景1:为了提高性能，我在代码中应用了java多线程功能

将Java ExecutorService用于多线程：

ExecutorService pool = Executors.newFixedThreadPool(5);

我尝试通过IDE在本地机器上执行，发现进程是并行执行的（线程数：5），执行时间有了很好的改进

当我使用azure Databricks Notebook执行具有以下设置的同一jar文件时，发现该文件正在序列化中执行，执行时间没有任何改进：

群集模式：标准 Databrick运行时版本：7.0（包括Apache Spark 3.0.0、Scala 2.12）驱动程序和工作程序类型：标准\u DS3\u v2

场景2：此外，我在代码中应用了logger（

java.util.logging.logger

），以便在作为jar文件执行时监视活动

已为记录器创建此实例：

static Logger logger = Logger.getLogger(DataLakeConnection.class.getName());

a）我试图从Azure Databrick集群页面的“驱动程序日志”部分（跟踪stdout、stderr、log-4j）访问日志，但在jar文件中找不到任何作为日志应用的日志

b）我试图通过笔记本使用命令从Azure Databrick的“DBFS”部分访问更多日志

我的问题是：

我们是否需要为Azure Databrick中Spark cluster的配置添加任何允许并行执行的配置（多线程方面）

我们如何详细跟踪内部日志（与jar文件中应用的内部日志相同）

提前感谢：）