Apache spark 为什么spark python udf在不同分区策略上的执行时间相差10倍？_Apache Spark_Dataframe_Pyspark_Apache Spark Sql_Udf - Fatal编程技术网

Apache spark 为什么spark python udf在不同分区策略上的执行时间相差10倍？

apache-spark dataframe pyspark

Apache spark 为什么spark python udf在不同分区策略上的执行时间相差10倍？,apache-spark,dataframe,pyspark,apache-spark-sql,udf,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,Udf,我得到了巨大的（超过10倍~100倍）两个作业之间的执行时间差，只是分区策略不同，我想知道为什么：）观察：按分区号重新分区时，均衡记录的运行速度比2慢10~100倍按列重新分区：电话\国家\代码从spark历史来看，唯一的区别是1。获得较小的较大（10~20%）随机读取大小我的环境： EMR 4.7上的Spark 1.6.1 Python 2.7 使用pyspark提交作业火花工作： python udf解析时区信息的电话号码通过spark redshift从redshift

我得到了巨大的（超过10倍~100倍）两个作业之间的执行时间差，只是分区策略不同，我想知道为什么：）

观察：

按分区号重新分区时，均衡记录的运行速度比2慢10~100倍

按列重新分区：电话\国家\代码

从spark历史来看，唯一的区别是1。获得较小的较大（10~20%）随机读取大小

我的环境：

EMR 4.7上的Spark 1.6.1
Python 2.7
使用pyspark提交作业

火花工作：

python udf解析时区信息的电话号码
通过spark redshift从redshift读取数据并写回

代码示例：

数据样本：

phone_number, phone_country_code
55-82981399971, 55
1-7073492922, 1
90-5395889859, 90

我猜：

在udf上的JVMPY级别上进行一些优化，这取决于分区的记录分布

感谢您的进一步建议：）

phonenumber\u util在策略1中需要处理所有国家/地区代码，而在策略2中只需要处理部分国家/地区代码。不确定phonenumber_util如何意识到这一差异，请尝试使用

df。解释以显示这两种方法的执行计划。首先，如果要比较运行时，请在两种情况下使用相同数量的分区。
phone_number, phone_country_code
55-82981399971, 55
1-7073492922, 1
90-5395889859, 90




[dataframe]相关文章推荐



                                                        
Dataframe 闪亮应用程序给出错误替换有1行，数据有0
dataframereplaceshiny 
Dataframe 什么'；这是我输入的适当占位符
dataframetensorflowinputmodel 
Dataframe 按创建日期获取不同的行
dataframepyspark 
Dataframe 如何将数据帧转换为变量
dataframepyspark 
Dataframe PySpark如何使用不匹配的密钥高效地连接2个数据帧
dataframeapache-sparkpyspark 
Dataframe 根据第二个数据帧中的事件筛选一个数据帧。皮斯帕克。需要优雅的解决方案
dataframeapache-sparkpyspark 
                                       





随机文章推荐



                                                        
Automation 如何使用Sikuli长时间等待一个按钮，其间可能有一些维护任务？
automation 
Automation 使用OpcNetApi连接到本地RSLinx经典单节点
automation 
Automation .sh插入a？在生成文件时
automation 
Automation 执行'；查找元素'；尝试使用Appium在混合应用程序的WEBVIEW中发送密钥时出现默认上下文中的atom错误
automationappium 
Automation Illustrator变量-自动生成时，动态排列相邻的两个文本字符串
automation 
Automation 我们能够自动化ESRI windows应用程序映射吗
automation 
Automation 托斯卡三角体
automation 
Automation 如何使用Botium绑定更改Botium测试的测试套件名称。现在它是默认名称
automation 
Automation GitLab中的自动化安全测试
automationautomated-testsgitlab 
Automation 如何有条件地使用waitforxpath？
automation 
Automation 在Pythonywhere中解析模块未找到错误
automation 
Automation 将数组处理为其他数组
automation 
Automation Ansible cisco ios，关闭未连接的接口
automationansible 
Automation 包装程序并有条件地传递输入和输出
automationtcl 
Automation 当电子邮件发送给潜在客户时，如果潜在客户转换为联系人订户，则如何在两次行程之间实施行程
automationsalesforce


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 我们可以使用Shark 0.9.1版本和Spark 1.1.0吗？
									Apache Spark
							 
Apache spark 我应该使用哪个记录器在云日志中获取数据
									Apache Spark
							 									Pyspark
							 
Apache spark Google Dataproc-经常与执行者断开连接
									Apache Spark
							 
Apache spark 在Google storage for Apache Spark SQL中访问数据
									Apache Spark
							 
Apache spark sbt：在不破坏依赖关系的情况下使用本地jar
									Apache Spark
							 									Sbt
							 
Apache spark 如何将自定义库部署到ApacheSpark？
									Apache Spark
							 
Apache spark 如何从Spark群集作业中排除节点？
									Apache Spark
							 									Pyspark
							 
Apache spark 设置Spark流媒体应用程序的执行者数量
									Apache Spark
							 
Apache spark 如何在ApacheSpark中处理拼花地板模式的更改
									Apache Spark
							 
Apache spark 如何使用Kubernetes在spark集群中调度作业
									Apache Spark
							 									Docker
							 									Kubernetes
							 
Apache spark spark动态分配如何清除排队的任务
									Apache Spark
							 
Apache spark pyspark:尽管向HADOOP_HOME添加了winutils，但出现错误：在HADOOP二进制文件中找不到可执行文件null\bin\winutils.exe
									Apache Spark
							 									Pyspark
							 
Apache spark Spark DataFrame到MySql时间戳错误
									Apache Spark
							 
Apache spark K8s上的Spark-获取错误：kube模式不支持在本地模式中引用应用程序依赖项
									Apache Spark
							 									Kubernetes
							 
Apache spark 在Spark流中刷新RDD
									Apache Spark
							 
Apache spark Spark系列化：钨和氪是如何协同工作的？
									Apache Spark
							 									Serialization
							 
Apache spark 笔记本电脑如何向Spark发送代码？
									Apache Spark
							 
Apache spark Scala Spark：按AUC分组计算
									Apache Spark
							 
Apache spark 将json从kinesis读取到pyspark时出现问题
									Apache Spark
							 									Pyspark
							 
Apache spark 使用ApacheSpark时如何处理数据库上的反压力？
									Apache Spark
							 
Apache spark PySpark:联接后的count（）结果不一致
									Apache Spark
							 									Pyspark
							 
Apache spark Spark结构化流媒体中同一数据帧/数据集上的多个操作/聚合
									Apache Spark
							 
Apache spark 我在Hbase中保存了一个数据帧，得到：java.lang.NoClassDefFoundError:org/apache/hadoop/Hbase/client/TableDescriptor
									Apache Spark
							 									Hbase
							 
Apache spark Sparkly_应用于Coxph函数
									Apache Spark
							 
Apache spark 以独立模式在主节点上启动多个辅助节点
									Apache Spark
							 
Apache spark 将spark sql中的空值替换为无值
									Apache Spark
							 
Apache spark 无法在pyspark中使用Jupyter笔记本读取文本文件
									Apache Spark
							 									Pyspark
							 									Jupyter Notebook
							 
Apache spark Spark log4j stdout重定向到纱线上的stderr
									Apache Spark
							 
Apache spark 有没有办法通过applicationID和链接的spark submit命令获取纱线日志？
									Apache Spark
							 
Apache spark 读取拼花地板/orc与文本文件时的火花行为
									Apache Spark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Joomla
Android Fragments
E Commerce
Mapreduce
Nativescript
Titanium
Encoding
Openid
Processing
Wso2
Graphql
Ibm Cloud
Tkinter
Stata
Merge
Playframework
Drupal 6
Llvm
Computer Science
Plone
Apache Camel
Symfony1
Text
Entity Framework Core
Ios7
Ruby On Rails
Discord
Ios5
Jsf 2
Amazon S3
Powerbi
Openerp
Design Patterns
Netty
Internationalization
Tridion
Command Line
Neo4j
Iis
Phantomjs
Machine Learning
Arrays
Laravel 4
Woocommerce
Rspec
Sencha Touch
Vb6
Gnuplot
File
Extjs4
Omnet++
Gps
Join
Cocos2d X
Mercurial
Express
Enums
Makefile
Jpa
Spring Security
Google Compute Engine
Path
Windows Phone 7
Cloud
Mqtt
Sencha Touch 2
Ionic2
Sass
Linux
.htaccess
Magento2
Racket
Jsf
Browser
Sockets
Coq
Jdbc
Stm32
Jupyter Notebook
Dependencies
Autohotkey
Azure Data Factory
Dependency Injection
Pagination
Sap
Performance
Silverlight
Inheritance
Opengl
Colors
Unity3d
.net Core
Floating Point
Udp
Applescript
Gwt
Office Js
Flash
Protractor
Orchardcms
Ssas
Reporting Services
Polymer
Cmd
Apache
Ruby On Rails 4
Tree
Airflow
Active Directory
Matrix
Cocos2d Iphone
Discord.py
Operating System
Windows Mobile
Jsp
Windbg
Symfony
Telerik
Amazon Web Services
Jira
Entity Framework
Axapta
Flask
Cocoa
Silverstripe
Objective C
Liferay
Datatables
Google Cloud Dataflow
Data Structures
Crystal Reports
Cloud Foundry
Multithreading
Cron
Uiview
Sonarqube
Jquery
Yii2
Search
Gmail
Debian
Sbt
Python
Sails.js
Sml
Optimization
Odata
Grep
Notifications
Bootstrap 4
Seo
Gtk
Clang
Google Sheets
Weblogic
C# 3.0
Npm
Binary
Graphviz
If Statement
Ibm Mq
Virtualbox
Gis
Playframework 2.0
Aframe
Openssl
Mips
Checkbox
Qt
Botframework
Google Calendar Api
Apache Storm
Oracle10g
Macros
Eclipse Plugin
Backbone.js
Vim
Project Management
Tabs
Cobol
Google Analytics
Server
Kdb
Perl
Internet Explorer 8
Twilio
Dataframe
Cygwin
Audio
Bash
Artificial Intelligence
Clearcase
Google Drive Api
Chart.js
C++
Dom
Methods
Xmpp
Eclipse Rcp
Video
Swiftui


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网