Apache spark 如何在spark RDD中创建分区_Apache Spark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在spark RDD中创建分区_Apache Spark - Fatal编程技术网

Apache spark 如何在spark RDD中创建分区

apache-spark

Apache spark 如何在spark RDD中创建分区,apache-spark,Apache Spark,假设我正在使用spark（scala）从HDFS读取一个文件。HDFS块大小为64 MB 假设HDFS文件的大小为130 MB 我想知道在基本RDD中创建了多少个分区 scala> val distFile = sc.textFile("hdfs://user/cloudera/data.txt") 分区的数量是根据块大小决定的吗在上述情况下，分区数为3？您可以运行并检查分区数 distFile.partitions.size 您可以运行并检查分区的数量 distFile.partit

假设我正在使用spark（scala）从HDFS读取一个文件。HDFS块大小为64 MB

假设HDFS文件的大小为130 MB

我想知道在基本RDD中创建了多少个分区

scala> val distFile = sc.textFile("hdfs://user/cloudera/data.txt")

分区的数量是根据块大小决定的吗

在上述情况下，分区数为3？

您可以运行并检查分区数

distFile.partitions.size

您可以运行并检查分区的数量

distFile.partitions.size

是一篇描述输入分区计算逻辑的好文章

HDFS块大小是分区的最大大小。因此，在您的示例中，分区的最小数量为3

partitions = ceiling(input size/block size)

通过将分区数作为参数传递给

sc.textFile

可以进一步增加分区数，如

sc.textFile（inputPath，numPartitions）

另一个设置

mapreduce.input.fileinputformat.split.minsize

也起作用。您可以将其设置为增加分区的大小（并减少分区的数量）。因此，如果将

mapreduce.input.fileinputformat.split.minsize设置为130MB
，则只会得到一个分区。
是一篇描述输入分区计算逻辑的好文章
HDFS块大小是分区的最大大小。因此，在您的示例中，分区的最小数量为3
partitions = ceiling(input size/block size)

通过将分区数作为参数传递给sc.textFile
可以进一步增加分区数，如sc.textFile（inputPath，numPartitions）

另一个设置mapreduce.input.fileinputformat.split.minsize
也起作用。您可以将其设置为增加分区的大小（并减少分区的数量）。因此，如果您将mapreduce.input.fileinputformat.split.minsize设置为130MB
，那么您将只得到一个分区




[xslt]相关文章推荐



                                                        
Xslt 按相反顺序应用模板
xsltsorting 
XSLT，按年份日期排序和分组
xsltsortingumbraco 
键入XSLT模板/函数作为序列构造函数？
xslt 
我可以将xslt模板的结果作为参数传递给另一个模板吗？
xslt 
Xslt 为每个职位问题嵌套XSL
xslt 
Xslt 使用<；在XSL FO生成的PDF中插入换行符；xsl:value of>；
xslt 
在java中从字符串处理XSLT源时使用键进行XSLT查找
xslt 
使用XSLT将xml转换为xml
xslt 
Xslt variable元素不能同时具有content和select属性
xslt 
使用xslt删除命名空间n标记
xslt 
XSLT组计数
xslt 
Xslt 如果xml节点中包含实体，如何检索xml节点？
xslt 
XSLT：如何从当前页面获取密钥'；仅限s项目（Umbraco）？
xsltumbraco 
Xslt XSL 1.0节点集的复杂选择
xsltxpath 
如何在XSLT中使用内联条件（if-then-else）？
xsltsharepointsharepoint-2010 
Xslt 模板声明为匹配元素，但从未触发
xslt 
Xslt XSL，SUM&；乘条件
xslt 
Xslt 使用saxon将JSON动态转换为XML
xslt 
在XSLT的xsl:param中使用双引号
xslt 
在XSLT中如何在连字符之前获取字符串
xslt 
                                       





随机文章推荐



                                                        
Sql server 服务器无法加载DCOM错误
sql-server 
Sql server 分组日期周期（按天数），但不包括周末？
sql-serverasp-classic 
Sql server 通过TSQL确定一个月内的任意最后一天？
sql-servertsql 
Sql server Join返回一对多关系的一行和两个联接表

表TRANS包含交易信息（transaction\u id、日期、foo、bar）
表ELEM包含事务的元素（transaction\u id，detail\u id）
表DET包含元件的详细信息（detail\u id、尺寸、重量、类别）
sql-server 
Sql server TSQL-如何防止此查询中的优化
sql-serveroptimizationsql-server-2008-r2 
Sql server SQL Server自由文本搜索vs In子句
sql-serversql-server-2008 
Sql server 使用SQL代码清除SSRS缓存
sql-serverreporting-servicesssrs-2008 
Sql server SQL Server:用于替换数据的查询
sql-serverdatabase 
Sql server 如果前N个特定字符都是零，如何删除它们
sql-serverstring 
Sql server SQL Server:与组中的下一个X进行比较
sql-serversql-server-2012 
Sql server 根据另一个表的值选择表和字段
sql-server 
Sql server 从Sql server中的Columnstore表将数据导入Matlab
sql-servermatlabimport 
Sql server &引用；“Microsoft Access数据库引擎”；Hresult:0X80004005说明：“；外部表格不是预期的格式。”；
sql-serverexcelssis 
Sql server 编码选项代码页不适用于MSSQL服务器中的OPENROWSET
sql-serverjsonpostgresqlencoding 
Sql server 保护我的SQL SERVER数据库的安全
sql-serverdatabase 
Sql server 使用T-SQL消除前10%和后10%值的平均计算
sql-servertsql 
Sql server 从另一个数据库中的视图创建表
sql-serverdatabase 
Sql server 在MS SQL中使用哈希字节比较哈希密码
sql-serverhash 
Sql server 选择“插入”，如取消pivot和pivot
sql-server 
Sql server 临时表中的嵌套查询引发列名错误
sql-server


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Ocaml
Windows Installer
Android Layout
Validation
Macos
Swiftui
Directx
Smalltalk
Ruby
Windows
Sharepoint 2010
Dictionary
Eclipse Rcp
Service
Yocto
Wicket
Composer Php
Open Source
Download
Ag Grid
Asp.net Mvc 5
Enums
Kotlin
Pagination
Resharper
Silverstripe
Xcode4
Phantomjs
Plugins
Google Cloud Firestore
Xamarin.ios
Apache Flex
Spring
Asp.net Mvc 4
C++11
.htaccess
Formatting
Ssh
Powershell
Apache Pig
Codenameone
Camera
Prolog
Nativescript
Transactions
Image Processing
Polymer
EmptyTag
Haskell
Opencv
Lambda
Redis
Binary
Jsf
Opencart
Xampp
Reporting Services
Content Management System
Moodle
Spring Mvc
Video
Jestjs
Protocol Buffers
Apache Spark
Gradle
Grid
Visual C++
Zend Framework
Data Binding
Laravel 4
Windows 7
Firefox
Highcharts
Workflow
Mule
Robotframework
Orientdb
Xpath
Odata
Unit Testing
Oracle Apex
Firefox Addon
Nhibernate
Django Rest Framework
Pyspark
Language Agnostic
Csv
Mvvm
Xna
Url Rewriting
Razor
Stanford Nlp
Woocommerce
Solr
Sql Server 2008
Hybris
Uwp
C++
Virtual Machine
Excel
Plsql
Hadoop
Racket
Ms Access
Sharepoint
Botframework
Charts
Visual Studio 2017
D3.js
Speech Recognition
Math
Telerik
Akka
Corda
Ssrs 2008
Puppet
Report
Statistics
Svg
Exception Handling
Serial Port
Active Directory
Asterisk
Docusignapi
Symfony
Google Colaboratory
File Io
Eclipse
Algorithm
Linkedin
Stored Procedures
List
Testing
Google Cloud Storage
Tcl
Design Patterns
Winforms
Jquery Ui
Google Calendar Api
Arduino
Ruby On Rails
Phpmyadmin
Chef Infra
Dialogflow Es
Jsf 2
Llvm
Combobox
Pine Script
Protractor
Knockout.js
Gmail
Ruby On Rails 4
Shiny
Jquery Mobile
Openlayers 3
Animation
Stripe Payments
Twilio
Swing
Amazon Web Services
Extjs4
Jhipster
Architecture
Leaflet
Applescript
Ecmascript 6
Aframe
Twitter Bootstrap 3
Orchardcms
Next.js
Coldfusion
Rally
Meteor
Azure Sql Database
Pytorch
Websocket
Sublimetext3
Passwords
Memory Leaks
Windows Phone
Ignite
Video Streaming
Usb
Amazon Dynamodb
Adobe
Qt
Ftp
Swift2
Heroku
Glsl
Cron
Actionscript 3
Dojo
Types
Breeze
Asp.net Web Api
Class
Signalr
Forms
Perforce
Concurrency


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网