Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号_Apache Spark_Pyspark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号

apache-spark pyspark

Apache spark 如何为spark作业确定更好的spark.sql.shuffle.partitions编号,apache-spark,pyspark,Apache Spark,Pyspark,我的日常spark应用程序处理所有datalake步骤，从处理原始层（重复数据消除和etl功能）、创建DW和数据集市开始。。。当我启动sparkSession时，我无法决定spark.sql.shuffle.partitions的更好配置是什么。我的群集配置： 7个活动节点总共738.50 GB内存 Spark版本2.1.0 我的问题是：如何选择spark.sql.shuffle.partitions的更好值来提高spark工作的性能。谢谢没有标准的答案。但一般来说，首先从高水平的并

我的日常spark应用程序处理所有datalake步骤，从处理原始层（重复数据消除和etl功能）、创建DW和数据集市开始。。。当我启动sparkSession时，我无法决定spark.sql.shuffle.partitions的更好配置是什么。我的群集配置：

7个活动节点
总共738.50 GB内存
Spark版本2.1.0

我的问题是：如何选择spark.sql.shuffle.partitions的更好值来提高spark工作的性能。
谢谢
没有标准的答案。但一般来说，首先从高水平的并行性开始（即大量的分区）
建议每个核心执行2到4个任务

:

一般来说，我们建议集群中每个CPU核心执行2-3个任务
因此，在您的示例中，7个节点，您需要知道核心的数量，因为每个节点可以有多个执行器，每个执行器可以有多个核心
关于内存，这取决于您的数据集有多大，您正在执行什么样的操作，数据是否扭曲，等等
和。。为什么不试试最新的Spark，它已经为您带来了更多的优化功能呢？：）
相关答案

[pyspark]相关文章推荐

Pyspark 如何一次运行多个Spark 2.0实例（在多个Jupyter笔记本中）？ pyspark jupyter-notebook

Pyspark 为什么Pypark给出了错误的方差值？ pyspark

运行pyspark时出错 pyspark

在pyspark中使用groupby时无法获取所有列 pyspark

如何使用createDataFrame创建pyspark数据帧？ pyspark

Pyspark 火花流到功率BI pyspark hbase powerbi

Sagemaker PySpark：内核已死亡 pyspark

Pyspark Pypark concat多个柱，聚结不起作用 pyspark

pyspark-kafka流数据处理程序 pyspark

Pyspark 如何在DataRicks中读取数据包含双引号和逗号分隔的csv文件 pyspark

如何展平每个id包含多行的pyspark数据帧？ pyspark

pyspark：将字符串转换为日期格式，不含分钟、编码和小时 pyspark

在pyspark中运行sql查询时获取pyspark.sql.utils.ParseException pyspark

使用pyspark从databricks中删除红移表 pyspark amazon-redshift

Pyspark 从HDFS读取拼花地板和模式问题 pyspark

获取pyspark中与最新时间戳对应的行 pyspark cassandra

PySpark/计算出现次数，并使用UDF创建一个新列 pyspark

pySpark将camelCase字符串拆分为两个字符串 pyspark

Pyspark 从数据帧名称中删除数字 pyspark

随机文章推荐

Prometheus 是否可以在没有文件配置的情况下使用Eureka SD设置普罗米修斯？ prometheus

Prometheus Cloudwatch Exporter未返回AWS ELB的正确矩阵 prometheus

Prometheus 普罗米修斯实例标签与容器 prometheus

Prometheus 理解PromQL聚合的结构？ prometheus

与Prometheus Alertmanager集成的呼叫警报 prometheus

Prometheus 格拉法纳·普罗米修斯“信息”度量 prometheus grafana

Prometheus 将自定义属性添加到普罗米修斯度量中，如地理位置 prometheus grafana

Prometheus 普罗米修斯警报管理器，在度量值更改时向松弛通道发出警报 prometheus

Prometheus Alertmanager静音功能不工作 prometheus

将度量从ActiveMQ Artemis发送到Prometheus prometheus

[apache spark]相关推荐

Tags

Sbt Unix Network Programming Arm Stanford Nlp Indexing Jsp Mongoose Ipython Seo Rspec Tfs Image Mongodb Floating Point File Upload Video Visual Studio Swagger Apache Spark Visual Studio 2013 Vector Sql Server 2008 Security Triggers Pdf Graphviz Google Chrome Usb Dll Influxdb Language Agnostic Sqlite Azure Functions Terraform Dask Entity Framework Utf 8 Jenkins Office365 Stata Blazor Ocaml Jestjs Sencha Touch Multithreading Wxpython Sublimetext3 Pentaho Resharper Nhibernate Mariadb Kentico Menu Actions On Google Hadoop Artificial Intelligence Arangodb Linq To Sql Libgdx Azure Data Factory Syntax Gremlin Python 3.x Windows 7 Video Streaming Arduino Cocoa Touch Elixir X86 Drupal 7 Elm Spring Office Js Wolfram Mathematica Functional Programming Speech Recognition Phantomjs Sencha Touch 2 Symfony1 Awk Spring Cloud Path List Exception Handling Sip Encoding Transactions Visual Studio 2015 Log4net Excel Formula Cors Doctrine Interface Opencv Scheme Smalltalk Coldfusion Azure Service Fabric Ssl Delphi Gps Wso2 Backbone.js Bazel .htaccess Windows Phone 7 Windows Phone 8 Yii2 Google App Maker Jetty Filesystems Yaml Unit Testing Go Xampp Navigation Cron Coq Octave Jqgrid Cmake Windows Installer Primefaces Coding Style Phpunit Azure Ad B2c Firebase Amp Html Sml Binary System Verilog Ssas Process Visual Studio 2010 Asterisk Jms Dependencies Erlang Objective C Bash Ruby On Rails 3 Composer Php Collections Combobox Apache Cloud View Wicket Flash Jvm Autohotkey Latex Ecmascript 6 Emacs Twitter Bootstrap Scrapy Oracle10g Jquery Ui Ethereum Automation Devexpress Polymer Binding Layout Opengl Amazon Redshift Html Plot Autocomplete Gitlab Parsing Alfresco Haskell Spring Security Facebook Cygwin Opencl Identityserver4 String Cobol Makefile Jsf 2 Kernel Compiler Errors Calendar Browser Geometry Codenameone Youtube Graphql Gatsby Gtk Qt Log4j Jekyll Telerik Terminal Cloud Foundry Svn Pycharm

Copyright © 2024. All Rights Reserved by - Fatal编程技术网