Apache spark Apache Spark-shuffle写入的数据比输入数据的大小还要多_Apache Spark_Shuffle - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Apache Spark-shuffle写入的数据比输入数据的大小还要多_Apache Spark_Shuffle - Fatal编程技术网

Apache spark Apache Spark-shuffle写入的数据比输入数据的大小还要多

apache-spark

Apache spark Apache Spark-shuffle写入的数据比输入数据的大小还要多,apache-spark,shuffle,Apache Spark,Shuffle,我在本地模式下使用Spark 2.1，我正在运行这个简单的应用程序 val N = 10 << 20 sparkSession.conf.set("spark.sql.shuffle.partitions", "5") sparkSession.conf.set("spark.sql.autoBroadcastJoinThreshold", (N + 1).toString) sparkSession.conf.set("spark.sql.join.preferSortMerge

我在本地模式下使用Spark 2.1，我正在运行这个简单的应用程序

val N = 10 << 20

sparkSession.conf.set("spark.sql.shuffle.partitions", "5")
sparkSession.conf.set("spark.sql.autoBroadcastJoinThreshold", (N + 1).toString)
sparkSession.conf.set("spark.sql.join.preferSortMergeJoin", "false")

val df1 = sparkSession.range(N).selectExpr(s"id as k1")
val df2 = sparkSession.range(N / 5).selectExpr(s"id * 3 as k2")

df1.join(df2, col("k1") === col("k2")).count()

val N=10首先，让我们看看数据大小总和（最小值、中间值、最大值）
的含义：
根据和，我们看到的数据大小总计（min，med，max）
是shuffle的dataSize
度量的最终值。那么，它是如何更新的呢？每次序列化记录时都会更新它：通过dataSize.add（row.getSizeInBytes）
（UnsafeRow
是Spark SQL中记录的内部表示形式）
在内部，UnsafeRow
由一个字节[]
支持，并在序列化过程中直接复制到底层输出流，其getSizeInBytes（）
方法只返回字节[]
的长度。因此，最初的问题被转化为：为什么字节表示是记录中唯一的长列的两倍？这份文件给了我们答案：
每个元组有三个部分：[空位集][值][可变长度部分]
位集用于空跟踪，并与8字节字边界对齐。它每个字段存储一位
因为它是8字节字对齐的，所以只有1个空位需要另一个8字节，与长列的宽度相同。因此，每个UnsafeRow
表示使用16个字节的一个长列行




[llvm]相关文章推荐



                                                        
LLVM标准输入/标准输出/标准输出
llvm 
如何获取循环归纳变量'；LLVM中的名称？
llvm 
Llvm 如何在X86 AT&；之前添加通行证；T型组件打印机通行证？
llvm 
Llvm 如何调用指向C函数的指针
llvm 
Llvm 什么'；运行MachineFunctionPass的最早时间是什么时候？
llvm 
如何在LLVM中编写自定义模块间过程？
llvm 
LLVM tablegen中字段关键字的含义是什么？
llvm 
可视化损坏的LLVM函数的最佳方法
llvm 
llvm:dyld:未找到符号：_zn4LLVM11运行时DYLD13内存管理器6Anchorev
llvmbazel 
LLVM：在C中声明一个间接函数调用，它将成为一个storedinst？
llvm 
在LLVM过程中标识带注释的变量
llvm 
哪些情况会导致；使用说明不是说明”；在LLVM IR中？
llvm 
Llvm 当clang运行链接器时，如何获取到clang的路径？
llvm 
基本编译的LLVM-IR会导致分段错误
llvm 
Llvm 将带参数的函数插入AppendToGlobalCTOR
llvm 
                                       





随机文章推荐



                                                        
Entity framework 4 如何在实体框架4中创建一对一关系
entity-framework-4 
Entity framework 4 EF4 DAL设计和ObjectContext：与同事的争论
entity-framework-4 
Entity framework 4 实体读取存储过程映射？
entity-framework-4 
Entity framework 4 实体框架4和ddd中的EAV
entity-framework-4domain-driven-design 
Entity framework 4 编译查询只允许使用标量参数！
entity-framework-4 
Entity framework 4 无法将LINQ转换为实体StringConvert（double）“”转换为将int转换为字符串
entity-framework-4 
Entity framework 4 将左侧外部联接查询转换为实体框架查询
entity-framework-4 
Entity framework 4 实体框架4和存储库模式问题
entity-framework-4 
Entity framework 4 实体框架edmx NopCommerce 1.9
entity-framework-4 
Entity framework 4 首先使用DataAnnotation与EntityFramework代码的关系
entity-framework-4 
Entity framework 4 实体框架新手-保存到数据库
entity-framework-4 
Entity framework 4 可以将参数化构造函数与DbSet.Create（Type）一起使用吗？
entity-framework-4 
Entity framework 4 TFS中分支后实体上没有键定义错误
entity-framework-4 
Entity framework 4 DbContext的子类不返回任何数据
entity-framework-4 
Entity framework 4 EF迁移显示空的Up（）Down（）方法，数据库中未创建表
entity-framework-4


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Types
Geolocation
Dataframe
Kentico
Video Streaming
Jhipster
Facebook
Netbeans
Applescript
Drupal 7
Core Data
Hibernate
Django
Google Compute Engine
Synchronization
Openlayers 3
Netlogo
Elm
Log4net
Documentation
C#
Google Cloud Dataflow
Macos
Amp Html
Asp.net Mvc 2
Function
Here Api
Jsp
Single Sign On
Xamarin.ios
Moodle
Visual C++
Dynamic
Azure Cosmosdb
C# 4.0
Dns
Silverlight
Debian
Uwp
Wcf
Server
Gatsby
Websphere
Virtualbox
Jquery Plugins
Twitter
Flash
Vbscript
Django Models
Reporting Services
Css
Gcc
Akka
Rdf
Windows 10
Shiny
Ocaml
Sharepoint
Configuration
Ibm Midrange
Embedded
Google Apps Script
Sql Server 2008 R2
Computer Vision
Keyboard
Asp.net Web Api
Jakarta Ee
Testing
Signalr
Gradle
Swift2
Ip
Vhdl
Xampp
Deployment
Mod Rewrite
Influxdb
Jboss
Docker Compose
Spring Integration
Protocol Buffers
Filesystems
Microservices
Jqgrid
Graphviz
Enums
Binary
Linq
Memory
Windows 8
Tcp
User Interface
Azure Functions
Debugging
Rabbitmq
Dojo
Google Calendar Api
Qml
Soap
Ionic2
File Upload
Directory
Polymer
Firebase
Database
Matplotlib
Nativescript
Backbone.js
Cobol
Jms
Big O
Twig
Rxjs
Fonts
Msbuild
Autodesk Forge
C++ Cli
Xamarin.forms
Pagination
Amazon Redshift
View
Nuget
Wix
Angularjs
Apache Pig
Opencl
Websocket
Cordova
Animation
Centos
Data Structures
Vector
Salesforce
Mapping
Playframework 2.0
Nest
Visual Studio 2015
Dynamics Crm
Pandas
Grid
Mule
Caching
Artifactory
Libgdx
Orientdb
Layout
Ruby On Rails 3.1
Xslt
Activemq
Https
Spring Cloud
Sencha Touch
Perl
Opengl Es
Hyperlink
Validation
Pycharm
D3.js
Visual Studio 2010
Jquery Mobile
Nestjs
Ios7
Chart.js
Ios8
Stream
Antlr
Artificial Intelligence
Ember.js
Regex
Linkedin
Odoo
Inheritance
Java 8
Smtp
Ios4
Forms
Google Chrome
Talend
Eclipse
Data Binding
Monitoring
Java Me
Ibm Mq
Yii
Flask
Snowflake Cloud Data Platform
Svn
Windows Services
Pytorch
Mongoose
Redis
Drools
Plot
Model View Controller
Jestjs
Maven 2
Ssl
Processing
Java
Ios5
Appium


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网