Multithreading Spark:理解分区-核心
我想了解Spark中的分区。 我正在windows 10上以本地模式运行spark。 我的笔记本电脑有2个物理核心和4个逻辑核心 1/术语:对我来说,火花中的核心=线。所以火花中的核心不同于物理核心,对吗?火花核心与任务相关,对吗? 如果是这样的话,因为您需要一个用于分区的线程,如果我的sparksql数据框架有4个分区,那么它需要4个线程,对吗 2/如果我有4个逻辑核,这是否意味着我只能在笔记本电脑上同时运行4个并发线程?那么火花中的4 3/设置分区数:如何选择我的数据帧的分区数,以便进一步的转换和操作尽可能快地运行? -既然我的笔记本电脑有4个逻辑核心,它应该有4个分区吗? -分区的数量与物理核心还是逻辑核心有关? -在spark文档中,有人写道,每个CPU需要2-3个任务。既然我有两个物理核心,分区的nb应该等于4还是6 (我知道分区的数量对本地模式没有多大影响,但这只是为了理解)Multithreading Spark:理解分区-核心,multithreading,scala,apache-spark,cpu-cores,Multithreading,Scala,Apache Spark,Cpu Cores,我想了解Spark中的分区。 我正在windows 10上以本地模式运行spark。 我的笔记本电脑有2个物理核心和4个逻辑核心 1/术语:对我来说,火花中的核心=线。所以火花中的核心不同于物理核心,对吗?火花核心与任务相关,对吗? 如果是这样的话,因为您需要一个用于分区的线程,如果我的sparksql数据框架有4个分区,那么它需要4个线程,对吗 2/如果我有4个逻辑核,这是否意味着我只能在笔记本电脑上同时运行4个并发线程?那么火花中的4 3/设置分区数:如何选择我的数据帧的分区数,以便进一步的
--executor cores
这样的选项,那么是的,它指的是每个executor将并发运行的任务数量