pyspark中的动态布尔连接_Pyspark - Fatal编程技术网

pyspark中的动态布尔连接

pyspark

pyspark中的动态布尔连接,pyspark,Pyspark,我有两个pyspark数据帧，模式如下- df_update = df_source.join(df_target, (df_source["id"] == df_target["id"]) & ((df_source["name"] != df_target["name"]) | (df_source["age"] != df_target["age"])) ,how="inner").select([df_source[col] for col in df_source.colum

我有两个pyspark数据帧，模式如下-

df_update = df_source.join(df_target, (df_source["id"] == df_target["id"]) & ((df_source["name"] != df_target["name"]) | (df_source["age"] != df_target["age"]))  ,how="inner").select([df_source[col] for col in df_source.columns])

df_来源：

id, name, age

df_目标：

id,name,age

“id”是表中的主列，其余都是属性列

我接受用户提供的主列和属性列列表，如下所示-

primary_columns = ["id"]
attribute_columns = ["name","age"]

我需要动态连接以上两个数据帧，如下所示-

df_update = df_source.join(df_target, (df_source["id"] == df_target["id"]) & ((df_source["name"] != df_target["name"]) | (df_source["age"] != df_target["age"]))  ,how="inner").select([df_source[col] for col in df_source.columns])

既然属性列和主键列的数量可以根据用户的输入而改变，那么如何在pyspark中动态实现这种连接条件呢？请提供帮助。

IIUC，您只需在

主列上使用一个内部联接和一个在属性列上循环的where
子句，即可获得所需的输出
由于两个数据帧具有相同的列名，因此使用来区分连接后的列名
from functools import reduce
from pyspark.sql.functions import col

df_update = df_source.alias("s")\
    .join(df_target.alias("t"), on=primary_columns, how="inner")\
    .where(
         reduce(
             lambda a, b: a|b, 
             [(col("s."+c) != col("t."+c) for c in attribute_columns]
         )\
    )
    .select("s.*")

使用reduce对属性_columns
中的列应用按位OR操作




[snowflake cloud data platform]相关文章推荐



                                                        
Snowflake cloud data platform 哪个管理表在snowflake中包含数据库名称
snowflake-cloud-data-platform 
Snowflake cloud data platform 是否有方法加载csv，其中包含单引号、双引号和新行的数据？
snowflake-cloud-data-platform 
Snowflake cloud data platform Snowflake使用Select语句填充的列子集创建表
snowflake-cloud-data-platform 
Snowflake cloud data platform 是否可以使用snowflake拆分大于8GB的大型文件？
snowflake-cloud-data-platform 
Snowflake cloud data platform Snowflake存储过程中每个DML操作的审核或行计数
snowflake-cloud-data-platform 
Snowflake cloud data platform 自动重新聚类&；搜索优化
snowflake-cloud-data-platform 
Snowflake cloud data platform 雪花仓库是否基于EC2这样的虚拟机？
snowflake-cloud-data-platform 
Snowflake cloud data platform 是否可以创建数据交换并与读者帐户共享？
snowflake-cloud-data-platform 
Snowflake cloud data platform 如何根据snowflake中的特定列删除重复项
snowflake-cloud-data-platform 
Snowflake cloud data platform 使用文件格式创建Snowpipe复制到某个阶段失败
snowflake-cloud-data-platform 
Snowflake cloud data platform 在SnowSQL中可变文件夹路径
snowflake-cloud-data-platform 
                                       





随机文章推荐



                                                        
Jasper reports 导出时删除引号
jasper-reports 
Jasper reports &引用；未找到任何数据。”；Jasper报告中的文本
jasper-reports 
Jasper reports iReport/Jasperserver
jasper-reports 
Jasper reports jasper报表中的未知超链接目标0
jasper-reports 
Jasper reports 使用jrxml生成pdf
jasper-reports 
Jasper reports 在下一页打印详细记录，尽管上一页还有空间
jasper-reports 
Jasper reports 动态页面高度，每页显示10条记录，StretchWithOverflow属性设置为true
jasper-reports 
Jasper reports 如何防止报告中重复显示数据？
样本报告-设计
jasper-reportsreport 
Jasper reports 在交叉表中将列组固定在一起
jasper-reports 
Jasper reports 如何在Jasper服务器中上载主报表和子报表？
jasper-reports 
Jasper reports 使用交叉表时如何设置动态主报告宽度？
jasper-reports 
Jasper reports 获取ireport中的连续序列号
jasper-reports 
Jasper reports 为什么在使用标记时XLSX中忽略样式？
jasper-reports 
Jasper reports 生成密码保护的pdf。如何为每个用户获取唯一的密码？
jasper-reports 
Jasper reports Jasper报告：子报告中的页码不起作用
jasper-reports 
Jasper reports 带参数的Jasper条件样式
jasper-reports 
Jasper reports Docx导出中的Jasper Book目录导航
jasper-reports 
Jasper reports 如何使用Jasper报告删除第一页的边距？
jasper-reports 
Jasper reports JasperReports库-切换到OpenJDK11后出现JRJavacCompiler错误
jasper-reports 
Jasper reports 使用API的JSON DataAdapter导致报告生成缓慢
jasper-reports


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
pyspark文件加载错误显示
									Pyspark
							 
使用withColumn函数从PySpark中的列表动态创建新列
									Pyspark
							 
Pyspark 齐柏林飞艇内的Scala和Pypark之间可以通过哪种类型？
									Pyspark
							 
Pyspark 交叉验证期间的自定义计算器
									Pyspark
							 
如何在Pyspark中将列表拆分为多列？
									Pyspark
							 
Pyspark 用条件其他列数据帧替换列值
									Pyspark
							 
如何使用pyspark使用的通配符读取hdfs文件
									Pyspark
							 
如何有效地使用pyspark模型？
									Pyspark
							 
Pyspark 类型错误：类型列不存在'；t定义圆方法
									Pyspark
							 
在pyspark中rdd上的映射是如何工作的？
									Pyspark
							 
Pyspark 使用点'；计算数据帧列的近似分位数'；
									Pyspark
							 
Pyspark 原因：容器因超过内存限制而被纱线杀死。24.1 GB的24 GB物理内存
									Pyspark
							 
Pyspark 如何从字符串生成日期时间
									Pyspark
							 
pysparksql：如何从column的值加上另一个列名生成一个新值？
									Pyspark
							 
Pyspark HDinsights 4.0-Spark-蜂巢集成
									Pyspark
							 									Hive
							 
Pyspark 火花阅读卡桑德拉
									Pyspark
							 									Cassandra
							 
Hudi Pyspark应用程序示例
									Pyspark
							 
Noob question pyspark-获取具有最小/最大薪资的所有列
									Pyspark
							 
reverse（）类型错误：reverse（）接受2个位置参数，但pyspark中提供了3个
									Pyspark
							 
Pyspark在条件下创建多个列，并从列表中匹配字符串
									Pyspark
							 
Pyspark 在Azrue Data Lake容器中合并文件
									Pyspark
							 
Pyspark替换嵌套结构字段中的空值
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Google Chrome
Firefox Addon
Pandas
Selenium Webdriver
Cloud
Windows Phone 8
Dynamic
Npm
Dependencies
Localization
Certificate
Azure
Activemq
Twig
Streaming
Corda
Wxpython
Server
Visual Studio
R
Sencha Touch
Yii
Websphere
Jupyter Notebook
Sqlalchemy
Microservices
Sdk
Svn
Dynamics Crm
Amp Html
Internationalization
Node.js
Sublimetext3
Azure Functions
Mdx
Symfony1
Abap
Asterisk
Drools
Svg
Visual Studio 2012
Clojure
Operating System
Ftp
Python
Gradle
Url Rewriting
Unit Testing
Active Directory
Tags
Programming Languages
Express
Telegram
Graphics
Vaadin
Servlets
Protractor
Dictionary
Oop
Uiview
Android Layout
Keyboard
Ios7
Google Colaboratory
Terminal
Facebook
Charts
Sql Server 2008 R2
Serial Port
Openshift
Datetime
Stream
Android Fragments
Msbuild
Gmail
Triggers
Nsis
Google Maps Api 3
Ember.js
Php
Ibm Midrange
Lisp
Jaxb
Ide
Editor
Macos
Acumatica
Oracle Apex
Actionscript
Shell
Permissions
Laravel 4
Matplotlib
Identityserver4
Graphviz
Encoding
Arangodb
Prometheus
Phpunit
Dependency Injection
Sonarqube
Boost
Generics
Django
Jdbc
Knockout.js
Ruby On Rails 3.1
Spring Batch
Gdb
Clearcase
Class
Drupal
Xamarin
Unity3d
Orientdb
Spring Cloud
Xpath
Nestjs
Office365
Cookies
Model
Memory
Google App Maker
Activerecord
Linkedin
Iframe
Computer Vision
Latex
Post
Notifications
Apache Flex
Fortran
Asp.net Core
Sublimetext2
Hadoop
Silverstripe
Postman
Libgdx
Exchange Server
Kernel
Atom Editor
Tcl
Pdf
Xmpp
Dataframe
Caching
Windows
Stanford Nlp
Apache Flink
Visual Studio 2017
EmptyTag
Web Applications
Concurrency
Configuration
Sharepoint
Ios5
Visual Studio 2008
Sml
Lua
Jboss
Excel Formula
Appium
Qml
Optimization
Virtualbox
Asynchronous
Geometry
Llvm
Netty
Eclipse Rcp
Jsf
.net 4.0
Ssl
Jersey
Openlayers
Mule
Rust
Rally
Drupal 7
Object
Windbg
Sugarcrm
Composer Php
Hybris
Html5 Canvas
Menu
Css
Io
Amazon S3
Rest
Proxy
Wordpress
Frameworks
Vba
Jestjs
Blockchain
Install4j
Printing
Openid
Shiny
Notepad++


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网