Apache spark 预测S3阅读任务的数量_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark 预测S3阅读任务的数量

apache-spark

Apache spark 预测S3阅读任务的数量,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我有10个parquet文件，每个文件大小约为830MB，位于S3bucket上，用于cust表如何预测Spark SQL将启动多少任务来读取此输入（从S3）以运行以下查询- select cust_id, prod_id, count(*) from cust group by 1, 2 having count(*) > 1 根据，我的计算结果是65任务，而实际上，Spark正在启动67任务。我哪里做错了 spark.read.parquet（“s3://bucket/path/t

我有

10个parquet文件，每个文件大小约为830
MB，位于S3
bucket上，用于cust
表
如何预测Spark SQL将启动多少任务来读取此输入（从S3）以运行以下查询-
select cust_id, prod_id, count(*)
from cust
group by 1, 2
having count(*) > 1

根据，我的计算结果是65
任务，而实际上，Spark正在启动67
任务。我哪里做错了
spark.read.parquet（“s3://bucket/path/to/folder/”）.rdd.getNumPartitions
=67
环境参数值如下所示：
spark.executor.cores = 2
spark.sql.files.maxPartitionBytes = 134217728
spark.sql.files.openCostInBytes = 4194304
sc.defaultParallelism = 2

请纠正我的理解。感谢您的帮助。谢谢




[gdb]相关文章推荐



                                                        
如何在没有断点的情况下停止GDB中的执行？
gdb 
什么是<；价值优化输出>；在gdb中是什么意思？
（gdb）n
134 a=b=c=0xdeadbeef+（（uint32_t）长度）+initval；
（gdb）n
（gdb）p a
$30 = 
（gdb）p b
$31 = 
（gdb）p c
$32 = 3735928563
gdb 
QEMU：通过GDBstub错误终止
gdb 
Gdb 如何在coredump中查找地址？
gdb 
为什么在远程管道模式下使用OpenOCD时GDB挂起？
gdb 
使用gdb'；s定义在类型上分派
gdb 
除掉；“无论如何退出”；使用GDB提示：只需终止进程并退出即可
gdb 
为什么'；gdb-s选项是否加载符号文件？
gdb 
如何使用gdb调试sqlplus可执行文件
gdb 
Gdb 正在分解共享库-显示哪个版本？
gdb 
使用GDB Python API从符号名称获取全局符号的地址
gdb 
如何使gdb忽略.gdbinit
gdb 
                                       





随机文章推荐



                                                        
iphone中的imagemagick
imagemagick 
Imagemagick 魔杖->；PNG到JPG
imagemagick 
Imagemagick去除水印
imagemagick 
Imagemagick 如何从保留帧尺寸的GIF文件中提取帧
imagemagick 
如何从imagemagick对象中清除并销毁新克隆？
imagemagick 
Imagemagick合成模糊会导致黑色区域
imagemagick 
使用PHP exec路径进行ImageMagick转换
imagemagick 
Imagemagick 在整个图像上自动设置级别，同时仅从较小区域采样
imagemagick 
使用ImageMagick确定图像内容
imagemagick 
Imagemagick正在ezpublish 4.7 enterprise上增加文件大小
imagemagick 
Imagemagick Minimagick错误：libgomp:线程创建失败：资源暂时不可用
imagemagick 
Imagemagick 避免图像的双重优化
imagemagick 
Imagemagick 致命错误：未捕获错误：调用未定义的方法Imagick:：FlattImages（）
imagemagick 
ImageMagick：调整图像大小并将其与其他图像合并
imagemagick 
我想从一个svg文件创建多个调整大小的PNG。我想用Imagemagick
imagemagick 
Imagemagick 此图像格式没有解码委托`'；@错误/c.c/ReadImage/572
imagemagick


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 在JSON中，Spark SQL自动推断模式的正确日期/日期时间格式是什么？
									Apache Spark
							 
Apache spark Spark SQL：将聚合函数应用于列列表
									Apache Spark
							 									Dataframe
							 
Apache spark 基于http的MLLib分类部署
									Apache Spark
							 
Apache spark 如何调整spark执行器编号、内核和执行器内存？
									Apache Spark
							 
Apache spark 在现有RDD中创建新记录
									Apache Spark
							 
Apache spark 火花流+运动：违反接收器最大速率
									Apache Spark
							 
Apache spark Spark将rdd字段值替换为另一个值
									Apache Spark
							 									Pyspark
							 									Apache Kafka
							 
Apache spark 使用Databricks Spark Avro 3.2.0时无任何方法错误
									Apache Spark
							 
Apache spark 如何使Spark Mesos作业能够从Docker容器内部启动？
总结：
									Apache Spark
							 									Docker
							 									Pyspark
							 
Apache spark 如何解析Spark 1.6中从Kafka流接收的Spark流中的Proto Buf Mesage
									Apache Spark
							 									Apache Kafka
							 									Protocol Buffers
							 
Apache spark saveToCassandra（）可以处理多个表吗
									Apache Spark
							 									Cassandra
							 
Apache spark 《卡夫卡周刊》和《卡夫卡直销》有什么区别？
									Apache Spark
							 									Apache Kafka
							 
Apache spark 用于创建弹性搜索索引的复合键
									Apache Spark
							 
Apache spark 如何比较两个数据帧并在pyspark中添加新的标志列？
									Apache Spark
							 									Pyspark
							 
Apache spark Ubuntu 18.04:Pyspark未解析依赖项：未找到模块：org.apache.spark#spark-streaming-kafka-0-10；2.3.0
									Apache Spark
							 									Pyspark
							 
Apache spark Spark从Azure Data Lake Store加载数据-Py4JJavaError:NoSuchMethodError
									Apache Spark
							 
Apache spark 使用镶木地板文件时的卡夫卡制作人恢复策略
									Apache Spark
							 									Apache Kafka
							 
Apache spark 将火花凝聚执行洗牌
									Apache Spark
							 
Apache spark 如何在k8s上的spark中使用HDFS HA？
									Apache Spark
							 									Kubernetes
							 
Apache spark 如何降低卡夫卡制作人的写作速度？
									Apache Spark
							 									Apache Kafka
							 
Apache spark spark检查点和本地检查点之间有什么区别？
									Apache Spark
							 
Apache spark 如何使用Pyspark缓存扩展数据帧
									Apache Spark
							 									Pyspark
							 
Apache spark 将数据加载到源中没有分隔符的Spark Dataframe中
									Apache Spark
							 									Hadoop
							 
Apache spark 在spark中处理压缩文件：重新分区可以提高或降低性能吗
									Apache Spark
							 
Apache spark 监控Spark应用程序的执行者
									Apache Spark
							 
Apache spark Spark作业已终止，java.io.EOFException:尝试从服务器读取响应时出现意外的EOF
									Apache Spark
							 
Apache spark 生成Spark模式代码/持久化和重用模式
									Apache Spark
							 
Apache spark 获得；“不明确的引用”；读取嵌套json Pypark时发生异常
									Apache Spark
							 									Pyspark
							 
Apache spark 基于字典的spark选项配置方法
									Apache Spark
							 									Pyspark
							 
Apache spark 字符串到日期的格式转换导致空数据块
									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ruby On Rails 4
Windbg
Nservicebus
Orientdb
Https
Oauth 2.0
Woocommerce
Aframe
Amazon Web Services
Azure Cosmosdb
Puppet
Npm
Instagram
Monitoring
Regex
Computer Science
Tree
Blazor
Web
Streaming
Video
Elixir
Racket
Primefaces
Sip
Nlp
Button
Express
Identityserver4
Qml
Visual C++
Spotify
Logic
Firefox
Notepad++
Spring Boot
Webpack
Perl
Asp.net Mvc 5
Oauth
Bots
.htaccess
Css
Discord.js
Botframework
Jekyll
Pointers
Silverstripe
Content Management System
Spring Security
Opencv
Variables
Python
Certificate
Security
Prometheus
F#
Visual Studio 2017
Network Programming
Django Models
Gradle
Function
Openid
Sails.js
Redis
Clojure
Binding
Google Cloud Dataflow
Devexpress
Types
Pip
Server
Json
Scheme
Wpf
Google Maps
Tsql
Processing
Cluster Computing
View
Windows 7
Encryption
Ibm Mobilefirst
Domain Driven Design
Symfony1
Microsoft Graph Api
Scrapy
Caching
Postman
Binary
Subsonic
Laravel 5
Rxjs
Math
Scikit Learn
Xamarin.ios
Dependencies
Internationalization
Mpi
Python 2.7
Ios4
Nosql
Transactions
Inheritance
Facebook Graph Api
React Native
Bazel
Jar
Geolocation
Tcp
Stata
Jpa
Spring Cloud
Oracle11g
Entity Framework 4
Xamarin
Com
Hazelcast
Statistics
Unicode
Quickbooks
Reporting Services
Ecmascript 6
Cocoa
Sparql
Matlab
Office Js
Gnuplot
Design Patterns
Algorithm
Xml
Gtk
Wso2
Ethereum
Syntax
Google Drive Api
Doxygen
Open Source
Acumatica
Ibm Midrange
Ruby On Rails 3.1
Mqtt
Vhdl
Wix
Sqlite
Xcode4
Indexing
Compiler Construction
Kubernetes
Google Compute Engine
Sugarcrm
Vb6
Phpunit
Postgresql
Report
Twilio
Rss
Map
Generics
Excel
Entity Framework Core
Sql Server 2008 R2
Lisp
Sphinx
Responsive Design
Xsd
Jvm
Dynamics Crm 2011
Notifications
Virtualbox
Google Maps Api 3
Mapbox
Scala
Mapreduce
Vmware
Graphql
Programming Languages
Twitter
Soap
Google Colaboratory
Delphi
Yii
Sonarqube
Ssrs 2008
Coding Style
Centos
Parse Platform
Nuget
Rally
Jasmine
Post
Kendo Ui
Animation
Service
Mule
Sharepoint 2013
Pascal
Azure Sql Database
Amazon Dynamodb
X86
Windows Mobile


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网