Apache spark 在spark中安排任务_Apache Spark_Pyspark_Emr - Fatal编程技术网

Apache spark 在spark中安排任务

apache-spark pyspark

Apache spark 在spark中安排任务,apache-spark,pyspark,emr,Apache Spark,Pyspark,Emr,我正在运行一个pyspark应用程序，它由一个阶段组成。阶段中任务的数量取决于分区的数量，因此阶段中存在多个任务。我想根据它所承载的分区大小来安排任务。例如，应该首先调度分区较大的任务有没有办法用我们自己的算法在spark作业中调度任务？没有，这是不可能的（如果您只想在spark中自己实现）：顺便说一句，一般来说，您应该尝试保持分区大小或多或少相等，以便更快地处理。例如，在过滤操作之后，有时调用重新分区来均衡数据可能会很有用。@VladislavVarslavans实际上在我的用例中，我正在使

我正在运行一个pyspark应用程序，它由一个阶段组成。阶段中任务的数量取决于分区的数量，因此阶段中存在多个任务。我想根据它所承载的分区大小来安排任务。例如，应该首先调度分区较大的任务

有没有办法用我们自己的算法在spark作业中调度任务？

没有，这是不可能的（如果您只想在spark中自己实现）：顺便说一句，一般来说，您应该尝试保持分区大小或多或少相等，以便更快地处理。例如，在

过滤

操作之后，有时调用

重新分区

来均衡数据可能会很有用。@VladislavVarslavans实际上在我的用例中，我正在使用sc.wholeTextFiles（）从s3读取文件，它返回成对的RDD，并且一个文件应该驻留在一个分区中。因此，重新划分是不可能的。好的，谢谢你的评论。事实上，如果从进一步处理的角度来看不需要整个文件，你仍然可以

重新分区你的数据，方法是使用flatMap
对文件行进行RDD，然后再重新分区。或者，如果需要，您可以在flatMap
之后添加一对（文件名，单线）
。




[pyspark]相关文章推荐



                                                        
Pyspark 识别在Spark中恢复的值
pyspark 
使用pyspark配置单元上下文连接两个表
pyspark 
DataProcPySparkOperator群集区域和区域问题
pysparkairflow 
pyspark将数据帧写入hbase，整数值以字节形式加载
pysparkhbase 
PySpark-迭代数据帧的行
pyspark 
将列追加到pyspark数据帧
pyspark 
Pyspark 如何将csv/txt文件加载到AWS粘合作业中
pyspark 
将具有嵌套结构的数组与PySpark数据框中的其他列一起转换为字符串列
pyspark 
如何在pyspark中获得确定性随机排序？
pyspark 
Pyspark Pypark can'；t将浮点转换为浮点：-/
pyspark 
pyspark SVD特征向量与PCA特征向量之间的差异意味着什么？
pyspark 
Pyspark 应用该模型后转换数据帧的Pypark提取概率
pyspark 
pyspark中列的规格化或缩放
pyspark 
Pyspark 基于上一行/当前行的Pypark排名
pyspark 
如何在pyspark中安装kafka模块
pysparkapache-kafka 
Pyspark Pypark将索引列传递给元素_at（）
pyspark 
pyspark-不支持操作异常：空集合
pyspark 
Pyspark 在简化的示例中，显示udf showString错误
pyspark 
Pyspark -------------+--------------+--------------+
|登录|第1页|第2页|第5页|
|第1页|第2页|第5页|第3页|
|第2页|第2页|第5页|第3页|
|第2页|第5页|第3页|第2页|
|第5页|第3页|第2页|退出|
|第3页|第2页|退出|退出|
|第2页|第2页|退出|退出|
|第2页|退出|退出|退出|
+-----+--------------+--------------+--------------+
pyspark 
Pyspark 无效的参数：请求失败：不支持通配符表
pysparkgoogle-bigquery 
                                       





随机文章推荐



                                                        
Corda中的节点身份注册
corda 
Corda 动态添加智能合约
corda 
Corda 查询LinearState状态下的嵌套集合
corda 
Corda 如何限制一组节点启动流
corda 
Corda 如何在两个参与者之间获得数字签名，rest只能看到账本更新而无法获得签名？
corda 
3名参与者与Corda之间的交易
corda 
任务'；的执行失败：java源代码：deployNodes'；。（安装Corda）。有什么建议吗？
corda 
Corda 索引0{}处缺少参数名称
corda 
corda 3中Vault的数据库SQL
corda 
Corda项目中包含的2个build.gradle文件之间有什么区别
corda 
无法在corda 4中运行单元测试
corda 
Corda:Corda-zulu-5.0-snapshot的Github路径
corda 
Corda 双方之间的检查点流是否共享Id？
corda 
R3Corda cordapp示例未能应用插件[id'；net.corda.plugins.quasar utils'；]
corda 
Corda 设计门卫服务
corda 
corda帐户的UUID在整个网络中是如何唯一的？
corda 
Corda—在同一事务中具有多个状态的流中的性能
corda


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark saveAstextFile是Windows上的Spark
									Apache Spark
							 
Apache spark Spark批量间的流式数据共享
									Apache Spark
							 
Apache spark Spark Streaming-Travis CI和GitHub自定义接收器-连续数据但空RDD？
									Apache Spark
							 
Apache spark pio评估失败，OutOfMemoryError:超出GC开销限制
									Apache Spark
							 
Apache spark Json数据的Spark
									Apache Spark
							 
Apache spark Spark将大文件作为inputstream读取
									Apache Spark
							 
Apache spark 无法在windows上运行pyspark
									Apache Spark
							 									Pyspark
							 
Apache spark 如何在Spark MLlib PMML文件中用精确的列名替换数据字段值？
									Apache Spark
							 									Machine Learning
							 
Apache spark apachespark'；s性能调整
									Apache Spark
							 
Apache spark 如何在带有Scala/Spark的udf中使用变量参数*？
									Apache Spark
							 
Apache spark 在齐柏林飞艇中添加spark csv依赖项会产生网络错误
									Apache Spark
							 
Apache spark Spark2.3的RESTAPI在kubernetes（版本1.8.*）集群上提交
									Apache Spark
							 									Kubernetes
							 									Aws Lambda
							 
Apache spark Spark将多个分区中的文件压缩为具有较大文件的单个分区
									Apache Spark
							 
Apache spark 皮斯帕克。数据帧中的zip数组
									Apache Spark
							 									Pyspark
							 
Apache spark Spark schedule.textFile（）任务在哪里
									Apache Spark
							 
Apache spark 当存在多个嵌套字段时，Pyspark Dataframe连接不正确
									Apache Spark
							 									Pyspark
							 
Apache spark 齐柏林飞艇：在HDP3.0中不显示配置单元数据库/表
									Apache Spark
							 									Hadoop
							 									Hive
							 
Apache spark 火花点火：尝试保存火花数据帧以点火时出错
									Apache Spark
							 									Ignite
							 
Apache spark 创建数据流窗口的切片
									Apache Spark
							 
Apache spark 在spark数据帧联合中，联合后内存中的父数据帧会发生什么变化？
									Apache Spark
							 
Apache spark 如何在批处理模式下使用spark从kafka主题加载所有记录
									Apache Spark
							 									Apache Kafka
							 
Apache spark 基于直接流的SparkStreaming，Kafka仅显示一个消费者ID
									Apache Spark
							 									Apache Kafka
							 
Apache spark 调用其他笔记本时Databricks笔记本超时错误：com.Databricks.WorkflowException:java.net.SocketTimeoutException:读取超时
									Apache Spark
							 
Apache spark 在CDH 6.0.0中激活本机库和英特尔MKL包后，Zookeeper无法启动
									Apache Spark
							 
Apache spark 如何修复'；TypeError：需要一个整数（获取类型字节）'；安装spark 2.4.4后尝试运行pyspark时出错
									Apache Spark
							 									Pyspark
							 
Apache spark DMP系统的技术堆栈选择
									Apache Spark
							 									Hadoop
							 									Apache Flink
							 
Apache spark 如何在AWS Glue中的Spark数据帧或Spark SQL临时表中包含分区列的值？
									Apache Spark
							 									Pyspark
							 
Apache spark Spark SPEL表达式UDF
									Apache Spark
							 
Apache spark 如何按列值分组处理pyspark数据帧
									Apache Spark
							 									Pyspark
							 
Apache spark 在Hadoop中如何计数？
									Apache Spark
							 									Hadoop
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Puppet
Windbg
Ip
Redis
Dynamic
Z3
Vaadin
Pointers
Sap
Process
Pytorch
Xcode
Jar
Tomcat
.net 4.0
Build
Protractor
Variables
Ruby On Rails
String
Sprite Kit
Google Cloud Firestore
Cocoa Touch
Android
Xquery
Dom
Openlayers 3
Sip
Listview
Opencv
Protocol Buffers
Gitlab
Parsing
Plugins
Swagger
Devexpress
Weblogic
Css
Vuejs2
Postman
Vue.js
Couchbase
Artificial Intelligence
Sphinx
Networking
Usb
Compiler Errors
Resharper
Discord.js
Amazon Cloudformation
Enums
Keyboard
Fluent Nhibernate
Modelica
Plone
Quickbooks
Youtube Api
Ios8
Automated Tests
Swing
Tinymce
.htaccess
Erlang
Web Applications
Dialogflow Es
Lotus Notes
Mapping
Automation
Django Models
Graph
Azure Active Directory
Blazor
Activerecord
Angular Material
Internet Explorer
Jira
Tags
Visual Studio 2017
Ionic2
Web Scraping
Vhdl
Dask
Hadoop
Collections
Installation
Phantomjs
Routing
Compiler Construction
Navigation
Visual Studio 2013
Rxjs
Scala
Ffmpeg
Codenameone
Jenkins
Cmake
Google Api
Embedded
Node.js
Drupal 6
Highcharts
Windows Phone 8.1
Scroll
Yii
Webstorm
Streaming
Opencart
Firefox Addon
Sql Server 2012
Plsql
Mediawiki
Dojo
Sharepoint 2010
Windows Mobile
Nuget
Responsive Design
Memory Management
Visual Studio 2012
Wix
Xslt
Prestashop
Go
Seo
Netlogo
Bash
Nservicebus
Apache Storm
Google Chrome Extension
React Native
Wxpython
Teradata
Latex
Shell
Parse Platform
Electron
Autohotkey
Tensorflow
Google Drive Api
Sms
Synchronization
Arm
Three.js
Tableau Api
Subsonic
Rdf
Youtube
Ms Office
Dataframe
Download
Elm
Asp.net Web Api
Image
Logic
Corda
Spring Cloud
Filter
Exception Handling
Triggers
Cocos2d Iphone
Angular6
Ethereum
C# 4.0
Netsuite
Sharepoint 2007
Unix
Calendar
.net Core
Nest
Mongoose
Model
Ajax
Sails.js
Log4net
Types
Jdbc
For Loop
Performance
Symfony1
Rx Java
Vector
Dependency Injection
Spring
Menu
File Io
File
Vba
Internet Explorer 8
C# 3.0
Network Programming
Amazon S3
Fortran
Web Services
Magento
Parallel Processing
Tabs
Class
Syntax
Search
Rspec
Sas
Knockout.js


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网