Java Azure Databrick:需要在集群中添加什么配置';有助于并行执行的配置,以及如何跟踪应用的日志
我创建了一个消息生成器工具,可以生成JSON格式的文件并直接写入azure data lake存储 场景1:为了提高性能,我在代码中应用了java多线程功能 将Java ExecutorService用于多线程:Java Azure Databrick:需要在集群中添加什么配置';有助于并行执行的配置,以及如何跟踪应用的日志,java,multithreading,scala,apache-spark,azure-databricks,Java,Multithreading,Scala,Apache Spark,Azure Databricks,我创建了一个消息生成器工具,可以生成JSON格式的文件并直接写入azure data lake存储 场景1:为了提高性能,我在代码中应用了java多线程功能 将Java ExecutorService用于多线程: ExecutorService pool = Executors.newFixedThreadPool(5); 我尝试通过IDE在本地机器上执行,发现进程是并行执行的(线程数:5),执行时间有了很好的改进 当我使用azure Databricks Notebook执行具有以下设置的同
ExecutorService pool = Executors.newFixedThreadPool(5);
我尝试通过IDE在本地机器上执行,发现进程是并行执行的(线程数:5),执行时间有了很好的改进
当我使用azure Databricks Notebook执行具有以下设置的同一jar文件时,发现该文件正在序列化中执行,执行时间没有任何改进:
群集模式:标准
Databrick运行时版本:7.0(包括Apache Spark 3.0.0、Scala 2.12)
驱动程序和工作程序类型:标准\u DS3\u v2
场景2:此外,我在代码中应用了logger(java.util.logging.logger
),以便在作为jar文件执行时监视活动
已为记录器创建此实例:
static Logger logger = Logger.getLogger(DataLakeConnection.class.getName());
a) 我试图从Azure Databrick集群页面的“驱动程序日志”部分(跟踪stdout、stderr、log-4j)访问日志,但在jar文件中找不到任何作为日志应用的日志
b) 我试图通过笔记本使用命令从Azure Databrick的“DBFS”部分访问更多日志
我的问题是: