Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apachesparkshell:如何设置分区的数量?_Apache Spark - Fatal编程技术网

Apache spark apachesparkshell:如何设置分区的数量?

Apache spark apachesparkshell:如何设置分区的数量?,apache-spark,Apache Spark,apachesparkshell上下文:使用shell时如何设置分区数:我正在查看的文档中不清楚。只是默认的2个分区吗?但分区的数量是多少?Spark中有许多不同的参数(例如,当您使用RDD进行转换时,用于shuffling Spark.sql.shuffle.partitions、Spark.default.parallelism),您还可以使用合并/重新分区等更改Dateset/Datafrem的分区数 在本地PC或hadoop集群上工作时,数据集的默认分区数也不同 您需要具体指定需要为分区

apachesparkshell上下文:使用shell时如何设置分区数:我正在查看的文档中不清楚。只是默认的2个分区吗?

但分区的数量是多少?Spark中有许多不同的参数(例如,当您使用RDD进行转换时,用于shuffling Spark.sql.shuffle.partitions、Spark.default.parallelism),您还可以使用合并/重新分区等更改Dateset/Datafrem的分区数

在本地PC或hadoop集群上工作时,数据集的默认分区数也不同

您需要具体指定需要为分区设置什么

以下是一些很好的链接,可以进一步澄清您的问题:


我已经看到,默认值是单机工作时机器的内核数。我的意思是映射减少操作的分区。分区的数量是多少?连接、保存输出?并行处理和转换大型数据集。standalone中的默认值是内核数。下面的答案与我的评论一致。我想你可能需要重新定义,因为它可能被认为太宽泛了。