Apache spark 2个操作的最后一个公共部分是否需要spark缓存？_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 2个操作的最后一个公共部分是否需要spark缓存？

apache-spark pyspark

Apache spark 2个操作的最后一个公共部分是否需要spark缓存？,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我的代码： df1 = sql_context.sql("select * from table1") #should I cache here? df2 = sql_context.sql("select * from table2") #should I cache here? df1 = df1.where(df1.id == '5') df1 = df1.where(df1.city == 'NY') joined_df = df1.join(df

我的代码：

df1 = sql_context.sql("select * from table1") #should I cache here?
df2 = sql_context.sql("select * from table2") #should I cache here?
df1 = df1.where(df1.id == '5')
df1 = df1.where(df1.city == 'NY')
joined_df = df1.join(df2, on = "key") # should I cache here?
output_df = joined_df.where(joined_df.x == 5)
joined_df.write.format("csv").save(path1)
output_df.write.format("csv").save(path2)

因此，我在代码中有两个操作，它们都在df1上生成过滤器，并将数据与df2连接起来。
在此代码中使用cache（）的正确位置在哪里？
我是否应该缓存df1和df2，因为它们将在这两个操作中使用。

或者我应该只缓存这两个操作之间最后一个公共部分的连接的df吗？

我认为唯一值得调用缓存的地方是

df1=df1.where（df1.city=='NY'）.cache（）

。可能您还希望在

joined_df=df1.join（df2，on=“key”）.cache（）上进行缓存，因为joined_df
用于两个后续操作。但Spark自身的优化很可能会使此注释在某些方面无效。@ernest_k如果我只缓存加入的_df，我希望Spark能够进行完全优化，但我只是想确保这是真的，你实际上是对的，我认为df1
的使用超出了声明joined_df
的范围。因此，是的，我只希望在这段代码中加入join\u df=df1.join（df2，on=“key”）.cache（）。但这仅在创建joined\u df
后不使用df1
或df2
时有效。这是否回答了您的问题？我的建议是，只有当缓存对美国有很大好处时，才使用缓存。缓存有太多的缺点-可能的磁盘空间问题，禁用AQE（spark 3+），在许多情况下它会减慢速度。因此，您需要确保在您的用例中有真正的性能提升。




[pyspark]相关文章推荐



                                                        
Pyspark 1：错误：''；预期但'；导入&x27；建立
pyspark 
Pyspark 使用Spark连接两个数据帧作为机器学习的输入
pyspark 
在PySpark中将密集向量转换为稀疏向量
pyspark 
pyspark数据帧删除具有旧时间戳的重复值
pyspark 
在pyspark中保存自定义变压器
pyspark 
Pyspark Spark 2.2从unix\u时间戳提取日期不起作用
pyspark 
PySpark dataframe：在自联接后使用重复的列名
pyspark 
Pyspark：观察到Pyspark数据帧中缺失值的插值
pyspark 
Pyspark AWS EMR从S3导入pyfile
pyspark 
搜索PySpark成对RDD中的值，以查找来自另一个RDD的键
pyspark 
PySpark错误：“调用o31.parseDataType时出错”
pyspark 
如何在Pyspark中生成当前没有时区的_timestamp（）？
pyspark 
在pyspark数据框中添加新列，比较同一数据框中存在的两列
pyspark 
从终端向Amazon EMR集群提交pyspark作业
pyspark 
Pyspark 在Databricks上使用sparknlp的预训练模型
pyspark 
Pyspark多重联接列<&燃气轮机；行值：减少操作
pyspark 
parse dict key:pyspark的值（键不是预定义的）
pyspark 
Pyspark 基于关联2行或多行生成新列值
我有一个用例想生成新的列值，考虑一个PiStk的数据帧，比如：
User   |  Product  |   Event       | ...
----------------------------------------
ram       apple         viewed
ram       apple         carted
bill      samsung       viewed
bill      samsung       carte
pyspark 
在PySpark中，如何使用从一列派生的值从另一列获取数据？
pyspark 
我可以吗；“分行”；流成多个，并在pyspark中并行写入它们？
pysparkapache-kafka 
                                       





随机文章推荐



                                                        
这个SBT命令是什么：*lift是org.lifty lifty 1.6.1
sbt 
使用SBT自动下载JavaCV 0.9平台二进制文件
sbt 
Sbt 下载工件时如何禁用web缓存？
sbt 
删除“；“未检测到主类”；SBT中的警告
sbt 
sbt创建多个scala源目录
sbt 
从sbt文件盘释放和发布
sbt 
在gitlab ci中运行sbt测试
sbt 
Sbt 如何使test和testOnly任务都依赖于新任务？
sbt 
如何获取sbt的进程id？
sbt 
从version.sbt动态填充版本
sbt 
使用sbt native packager使用自定义配置构建docker映像
sbt 
Sbt 如何用叉子叉lagom runAll
sbt


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 如何在Spark SQL中查询Avro表
									Apache Spark
							 
Apache spark 在运行此程序之前，您需要构建spark
									Apache Spark
							 
Apache spark Spark为数据帧联接指定多列条件
									Apache Spark
							 
Apache spark 使用SparkSQL HiveContext“插入…”
									Apache Spark
							 									Pyspark
							 
Apache spark 我可以在spark streaming窗口中获取每个时间间隔的数据吗？
									Apache Spark
							 
Apache spark Spark shuffle目录的大小不断增长
									Apache Spark
							 
Apache spark 工作程序获取时引发异常"；无法反序列化任务异常"；ClassNotFoundException错误
									Apache Spark
							 
Apache spark Apache Spark无法使用Amazon EC2上的Spark提交脚本连接到主服务器
									Apache Spark
							 									Amazon Ec2
							 
Apache spark Spark是否支持S3中实木地板文件的真列扫描？
									Apache Spark
							 									Amazon S3
							 
Apache spark 创建包含Spark dataframe字段中数组中每个结构的第一个元素的数组
									Apache Spark
							 									Pyspark
							 
Apache spark Spark 1.3缺少库
									Apache Spark
							 									Hbase
							 									Apache Kafka
							 
Apache spark 如何在具有不同内存量和内核的群集上调整spark作业
									Apache Spark
							 									Hadoop
							 									Pyspark
							 
Apache spark 在REST Web服务上使用Spark ML管道
									Apache Spark
							 									Machine Learning
							 
Apache spark 使用Spark（1.6.0）SQL解决启用Kerberos的远程配置单元元存储（配置单元-1.1.0）访问问题
									Apache Spark
							 									Hive
							 
Apache spark pyspark sqlfunction expr函数未按预期工作？
									Apache Spark
							 									Dataframe
							 									Pyspark
							 
Apache spark spark独立模式通过spark.driver.extraJavaOptions
									Apache Spark
							 
Apache spark 如何检查spark streaming中历史/持久数据中已有的流数据记录？
									Apache Spark
							 									Apache Kafka
							 
Apache spark 升级到Spark 2.3时，Spark 2.0 sql引发异常
									Apache Spark
							 
Apache spark 如何捕捉火花'；在pyspark本地模式下的s stderr日志
									Apache Spark
							 									Pyspark
							 
Apache spark 如何从UI（非计划）触发气流DAG立即运行
									Apache Spark
							 									Airflow
							 
Apache spark Spark streaming是否需要Kafka的HDFS
									Apache Spark
							 									Pyspark
							 									Apache Kafka
							 
Apache spark 如何为spark结构化流媒体指定kafka消费者的组id？
									Apache Spark
							 
Apache spark mapGroupsWithState中的spark streaming了解超时设置
									Apache Spark
							 
Apache spark 是否可以通过mlflow加载Scala/Spark管线模型？
									Apache Spark
							 									Pyspark
							 
Apache spark 使用变量模式从dataFrame列读取JSON
									Apache Spark
							 
Apache spark spark缓存RDD是否在洗牌后自动执行？
									Apache Spark
							 
Apache spark 将Spark on Thread配置为使用hadoop本机库
总结
									Apache Spark
							 
Apache spark Pyspark：创建一个滞后列
									Apache Spark
							 									Pyspark
							 
Apache spark 字符串concat运算符（| |）在配置单元中抛出错误
									Apache Spark
							 									Hadoop
							 									Hive
							 
Apache spark 如何使Spark流按顺序执行
问题
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Maven
Macros
Image Processing
Laravel
Wicket
Crystal Reports
Swing
View
Firefox Addon
Permissions
Laravel 5
Bluetooth
Google Cloud Firestore
Mvvm
Vb6
Nestjs
Sql Server 2008 R2
Amazon Ec2
Playframework
Pytorch
Gtk
Forms
Breeze
Azure
Utf 8
Seo
Vbscript
Encryption
Codenameone
Cuda
Leaflet
Github
Swiftui
Amazon S3
Julia
Apache Flex
Deep Learning
Blockchain
Inno Setup
Nosql
Sails.js
Kendo Ui
Serial Port
Office365
Go
Dependencies
Geometry
Nativescript
Material Ui
Sitecore
Gatsby
Drupal
Dart
Graphics
Websphere
Salesforce
Orm
Login
Magento
Winapi
Winforms
Libgdx
Mariadb
Windows Phone 8
Lambda
Pyspark
Datatables
Youtube Api
Blackberry
Stream
Facebook Graph Api
Fullcalendar
Enums
Tableau Api
Perforce
Applescript
Push Notification
Groovy
Opengl Es
Asp.net Mvc 5
Subsonic
Tcl
Solr
Stored Procedures
Web Scraping
Chef Infra
Microservices
Smalltalk
Jvm
Migration
Bison
Nuget
Math
Google Compute Engine
Abap
Ibm Mq
Jhipster
File
Airflow
Npm
Coldfusion
Email
Ios4
Class
Pip
Webgl
Netty
Time Complexity
Synchronization
Video Streaming
Swift2
Pdf
Dynamic
Sprite Kit
Merge
Timer
Model
Embedded
Doxygen
Navigation
Authentication
Webstorm
Oauth 2.0
Configuration
Redux
Graphviz
Oracle
Sencha Touch
Actions On Google
Youtube
Cocoa Touch
Gruntjs
Socket.io
Antlr4
Cocos2d Iphone
Grid
Hyperledger Fabric
Discord
Google Maps
Moodle
Uml
Xamarin
Kentico
Visual Studio 2013
Syntax
Xquery
Docker Compose
Oracle10g
Autocomplete
Android Layout
Routes
Architecture
Prolog
Javafx 2
Concurrency
Erlang
Xamarin.ios
Centos
Jms
Internet Explorer 8
Server
Kotlin
Ftp
Racket
Gridview
Apache Kafka
Wcf
Azure Devops
Xcode4
Angular
Web Services
Sublimetext2
Cluster Computing
Graph
Backbone.js
Autohotkey
Jquery Plugins
Docusignapi
Serialization
Webpack
Processing
Windows Mobile
Antlr
Ibm Cloud
Mercurial
Flash
Dependency Injection
Tomcat
Usb
Visual C++
Openerp
Scala
Resharper
Linkedin
Eclipse Plugin
Extjs4
Asynchronous
Wxpython
Encoding
Google Drive Api
Grep


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网