Apache spark 处理80 GB文件需要多少执行者?

Apache spark 处理80 GB文件需要多少执行者?,apache-spark,Apache Spark,可用硬件配置- 16 GB,8芯 处理数据需要多少执行器和执行器内存 数据格式-数据是由20列分隔的文本格式,需要在其中一列上执行与平均值类似的聚合 执行者越多,作业或阶段完成得越快 您的工作将分为多个任务,每个任务都将由执行者运行。如果有比执行者更多的任务,他们只是排队。如果只有一个执行者,那么队列会更长!这应该决定完成的能力 更好的问题是“我应该给执行器多少内存”。根据输入大小,可以给执行器多少内存?我在没有考虑inputsize的情况下找到了很多解释。@prady有多少分区?一次至少需要足

可用硬件配置- 16 GB,8芯

处理数据需要多少执行器和执行器内存


数据格式-数据是由20列分隔的文本格式,需要在其中一列上执行与平均值类似的聚合

执行者越多,作业或阶段完成得越快

您的工作将分为多个任务,每个任务都将由执行者运行。如果有比执行者更多的任务,他们只是排队。如果只有一个执行者,那么队列会更长!这应该决定完成的能力


更好的问题是“我应该给执行器多少内存”。

根据输入大小,可以给执行器多少内存?我在没有考虑inputsize的情况下找到了很多解释。@prady有多少分区?一次至少需要足够的内存来容纳一个分区。如果您的硬件或虚拟机上有16GB,Spark将为执行器分配略低于10GB的内存。在这种情况下,您需要至少10个分区,甚至更多,以确保每个分区小于10GB。