如何基于来自其他pyspark数据帧的日期值过滤第二个pyspark数据帧？_Pyspark_Pyspark Dataframes - Fatal编程技术网

如何基于来自其他pyspark数据帧的日期值过滤第二个pyspark数据帧？

pyspark

如何基于来自其他pyspark数据帧的日期值过滤第二个pyspark数据帧？,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,我有一个数据框，其中填充了load\u date\u time。我想用其他数据帧中的max（date_值）来过滤这个数据帧我试着做了以下几点 df2_max_create_date = df2.select("create_date").agg(F.max(df_dsa["create_date"])) df2_max_create_date.show() +----------------+ |max(create_date)| +----------------+ | 2019-

我有一个数据框，其中填充了load\u date\u time。我想用其他数据帧中的max（date_值）来过滤这个数据帧

我试着做了以下几点

df2_max_create_date = df2.select("create_date").agg(F.max(df_dsa["create_date"]))
df2_max_create_date.show()
+----------------+
|max(create_date)|
+----------------+
|      2019-11-10|
+----------------+

然后尝试基于此日期筛选第一个数据帧。它有一个名为load\u date\u time的时间戳列

df_delta = df1.where(F.col('load_date_time') > (F.lit(df2_max_create_date)))

但我的错误率越来越低

AttributeError: 'DataFrame' object has no attribute '_get_object_id'

您可以通过调用

collect

获取

max\u date

变量：

max_create_date = df2.select(F.max(df_dsa["create_date"])).collect()[0][0]
df_delta = df1.where(F.col('load_date_time') > max_create_date)

只需使用

连接

df_delta=df1.alias（“l”）.crossJoin（df2_max_create_date）。where（F.col（“load_date_time”）>F.col（“max（create_date）”）。select（“l.*）

。效果很好。仅供参考：使用

连接几乎总是比收集更受欢迎！我也明白为什么。为什么在collect（）上使用交叉连接是经济高效的？@anidev711 collect是一种操作，而连接是一种转换。阅读此问答




[udp]相关文章推荐



                                                        
Udp jgroups多播类强制转换异常
udp 
Udp Richard Stevens的sock程序-多播客户端
udp 
路由器后的源UDP端口
udp 
Android 10 udp brodcast未接收
udp 
                                       





随机文章推荐



                                                        
如何同时使用apache mod_rewrite和alias？
apachemod-rewrite 
Apache mod_rewrite重定向到带有适当协议的URL
apache.htaccessmod-rewrite 
Apache 如何使用.htaccess删除URl的一部分？
apache.htaccessmod-rewrite 
Apache Expires指令-修改基数与访问基数
apache.htaccess 
Apache 重定向http://example.com 在保留的同时发送到http:/www.example.comhttp://subdomain.example.com 通道完好无损
apachemod-rewriteurl-rewriting 
apache mod_重写和查询参数的数量
apachemod-rewrite 
Apache 没有名为jinja2的模块
apachepython-3.xpip 
mod_重写从apache到lighttpd的迁移
apachemod-rewrite 
Apache .htaccess重写规则-[L，R]和[R，L]之间的差异？
apache.htaccessmod-rewrite 
Apache重写规则条件
apache 
Apache 为什么Dropbox破坏了我的Drupal站点？
apachedrupaldrupal-7 
如何将Apache用于短URL？
apacheurl-rewriting 
使用具有自定义主机名（apache）的VirtualHost时调试400
apache 
Apache 被sslcapertificatefilebundle搞糊涂了
apachessl 
ApacheSolr7.4：使用_儿童文件；没有工作，文档仍然是扁平的
apachesolr 
Apache 为什么在安装deb文件时缺少文件？
apacheubuntudebian 
Apache 请求方法中的.htaccess问题
apache.htaccesshttp 
基于http方法的Apache限制proxypass
apache 
Apache 同一个PHP文件用于整个目录
apache.htaccessmod-rewriteurl-rewriting 
Apache 请提供地理服务器建议-HTTP状态400–；错误的请求
apache


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
Pyspark 如何确定Spark中ALS.transImplicit的偏好/信心？
									Pyspark
							 
PySpark ML feature transform，调用拟合/变换方法两次或两次以上？
									Pyspark
							 
Pyspark 在DSX上导入SparkSession数据帧
									Pyspark
							 
具有混合值类型的MapType的PySpark UDF
									Pyspark
							 
Pyspark 连接时忽略spark中的大小写
									Pyspark
							 
PySpark-将映射函数添加为列
									Pyspark
							 
Pyspark AWS胶水错误|无法使用spark从开发人员端点读取胶水表
									Pyspark
							 
Pyspark Spark Dataframe在count（）上返回不一致的值
									Pyspark
							 
pyspark-Spark hbase连接器找不到数据源
									Pyspark
							 									Hbase
							 
Pyspark 如何从模型中获取InputColumn名称？
									Pyspark
							 
Pyspark 错误：AttributeError:&x27；数据帧'；对象没有属性'_jdf&x27；
									Pyspark
							 
Pyspark 当与show方法或count一起使用时，jupyter单元格执行挂起并引发异常
									Pyspark
							 									Jupyter Notebook
							 
如何对PySpark中的分组数据应用条件计数（带重置）？
									Pyspark
							 
Pyspark 基于某种条件在databricks笔记本中执行cmd单元格
									Pyspark
							 
“无法运行程序”；python"；：错误=2，通过gitlab ci/cd管道运行pyspark测试时没有此类文件或目录
									Pyspark
							 									Continuous Integration
							 									Gitlab
							 
Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？
									Pyspark
							 
Pyspark spark submit在添加--py文件后挂起
									Pyspark
							 
Pyspark 如何在“groupBy（）”之后选择数据帧的特定行？
									Pyspark
							 
Pyspark 将数据传输到红移时从aws glue转换时间戳
									Pyspark
							 									Amazon Redshift
							 
Pyspark Spark DataFrame获得全部<；p>；每个元素的xml文档中的xml标记
									Pyspark
							 
Pyspark Sql类型：联合[int，float]
									Pyspark
							 
在PySpark中加速重复的KMeans
									Pyspark
							 
读取.xlsx文件时出现PySpark错误：'；无法将JSON字符串转换为字段；
									Pyspark
							 
Pyspark 如何在spark sql中将日期格式从字符串（2020年6月24日）更改为日期24-06-2020？
									Pyspark
							 
Pyspark 如何使用withColumn向UDF传递额外参数
									Pyspark
							 
使用pyspark识别大量数据中的更改
									Pyspark
							 
Pyspark Databricks在没有进展的情况下激发了工作
									Pyspark
							 
在pyspark中使用graphframe（Pregel API'；s）实现组织中的员工层次结构和深度
									Pyspark
							 
如何计算pysparK中多个列的中值？
									Pyspark
							 
PySpark中的GCS连接器未读取CSV
									Pyspark
							 									Google Cloud Storage
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Aws Lambda
Notepad++
Discord.js
Instagram
Mapreduce
Sublimetext2
Cmake
Arangodb
Jasper Reports
Django Rest Framework
Timer
Twitter
Macros
Iphone
Ibm Mobilefirst
Spring Batch
Apache Flex
Playframework 2.0
Sparql
Mysql
Objective C
Unicode
Jestjs
Windows 8
Compiler Errors
Pagination
Marklogic
Eclipse Plugin
Openstack
Primefaces
Javafx
Tableau Api
Tcp
Playframework
Sml
Blazor
Plot
Visual Studio 2010
Io
Bots
Arduino
Mediawiki
Testing
Oracle Apex
Numpy
Blackberry
Statistics
Sap
Coldfusion
Jakarta Ee
Prometheus
Angularjs
Powerbi
Windows Installer
Asterisk
Layout
Google Maps Api 3
Mule
Yii
.net Core
Google Drive Api
Fortran
Openssl
Html5 Canvas
Google Api
Asp.net Mvc 3
Rabbitmq
Pascal
Oracle
Matlab
Jms
Monitoring
Active Directory
Gps
Url Rewriting
Debugging
Actions On Google
C++
Grid
Terminal
Svg
Vagrant
Web Crawler
Ckeditor
Visual Studio 2017
Windows Store Apps
Report
Recursion
Scikit Learn
Scripting
Cuda
Amazon Dynamodb
Xamarin.android
Flash
Xsd
Stata
Oracle11g
Automated Tests
Azure Sql Database
Spotify
Netbeans
Latex
Checkbox
Visual Studio
Binding
Jetty
Firefox Addon
Winforms
Jqgrid
Compiler Construction
Zsh
Facebook Graph Api
Go
Google Visualization
Scroll
Nsis
Nosql
Vb6
Haskell
Websphere
Tomcat
Laravel
Identityserver4
Windows Phone 8.1
Actionscript 3
Ruby
Enums
Command Line
Log4j
Assembly
Opengl Es
Material Ui
Asp.net Core
Functional Programming
Download
Coffeescript
Discord.py
Sbt
Seo
Grep
Ios7
Cmd
Netlogo
Navigation
Triggers
Uml
Keyboard
Sas
Logic
Ip
Lambda
Youtube Api
Merge
Abap
Rdf
Mapbox
Indexing
Maven
Virtualbox
Tfs
Push Notification
Kdb
Azure Data Factory
Amazon Ec2
Graph
Printing
Colors
Winapi
Ms Access
Cron
Function
Reporting Services
C# 3.0
Sugarcrm
Unity3d
Canvas
Iframe
Openshift
Akka
Python 3.x
Pentaho
Random
Flask
Openerp
Mpi
Twilio
Google Chrome
Emacs
Dask
Google Apps Script
Postgresql
Exchange Server
Ipython
Datetime
Scala
Air
Xamarin
Smalltalk
Localization
Arm
Selenium


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网