如何将此sql查询转换为pyspark？_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

如何将此sql查询转换为pyspark？

pyspark

如何将此sql查询转换为pyspark？,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,这是我试图转换的代码，它支持子查询，因为您可以注册临时视图并执行相同的查询在用于的DataFrameApi中，不在中，使用join模拟相同的查询示例： SELECT A.* FROM df1 A WHERE ID NOT IN (SELECT ID FROM df2) 如果两个数据帧的列数相同，则可以使用exceptAll函数 df.show() #+----+---+ #|name| id| #+----+---+ #| a| 1| #| c| 3| #+----+---+

这是我试图转换的代码，它支持子查询，因为您可以注册临时视图并执行相同的查询

在用于

的DataFrameApi中，不在中，使用join模拟相同的查询
示例：
SELECT A.* FROM df1 A
WHERE ID NOT IN (SELECT ID FROM df2)


如果两个数据帧的列数相同，则可以使用exceptAll函数
df.show()
#+----+---+
#|name| id|
#+----+---+
#|   a|  1|
#|   c|  3|
#+----+---+

df1.show()
#+----+---+
#|name| id|
#+----+---+
#|   a|  1|
#|   b|  2|
#+----+---+

df.join(df1,'id','left_anti').show()
#+---+----+
#| id|name|
#+---+----+
#|  3|   c|
#+---+----+

#only if you have few id values in df2 then
ids=df1.select("id").rdd.map(lambda x:x.id).collect()

#isin accepts only values not columns from another dataframe
df.filter(~col("id").isin(ids)).show()
#+----+---+
#|name| id|
#+----+---+
#|   c|  3|
#+----+---+


对于
子查询中的，请使用左半部分连接
df.exceptAll(df1).show()
#+----+---+
#|name| id|
#+----+---+
#|   c|  3|
#+----+---+

你试过什么吗？请添加到目前为止您尝试过的内容。。！df1.filter（~col（'ID'）.isin（df2.ID））这是我尝试过的，不确定这是否正确您使用的是哪个版本的spark？我使用的spark版本2.4即使ID列不唯一也会左\反工作吗？如果ID不匹配，则该行将成为左\反联接的结果！
df.join(df1,'id','left_semi').show()
#+---+----+
#| id|name|
#+---+----+
#|  1|   a|
#+---+----+




[cloud foundry]相关文章推荐



                                                        
Cloud foundry Can'；使用microcloudfoundry进行t调试
cloud-foundry 
Cloud foundry 访问cloudfoundry上部署的应用程序
cloud-foundry 
Cloud foundry 我们可以在AWS上部署cloudfoundry的Ui吗
cloud-foundryibm-cloud 
Cloud foundry 如何获取应用程序的一部分'；cloudfoundry中的文件内容？
cloud-foundry 
Cloud foundry 在PCFDev中使用SSH访问服务失败
cloud-foundry 
Cloud foundry Cloud foundry：配置JVM堆大小和页面文件大小
cloud-foundry 
Cloud foundry 如何在PCF上运行依赖项作业？
cloud-foundry 
Cloud foundry 云铸造上的KeyClope独立群集
cloud-foundrykeycloak 
Cloud foundry 更改CloudFoundry中webapps文件夹中的文件
cloud-foundry 
Cloud foundry 获取子域的错误未映射到有效的标识区域，了解如何在K8s上定义此类区域
cloud-foundry 
Cloud foundry cloudfoundry中的度量注册器
cloud-foundry 
                                       





随机文章推荐



                                                        
Google calendar api 使用Sql Server数据库的Google日历
google-calendar-api 
Google calendar api 谷歌日历API：我可以检索指定日期后更改/创建的条目吗？
google-calendar-api 
Google calendar api '；谷歌认证例外'；带有消息'；无法分析p12文件？
google-calendar-api 
Google calendar api 通过API添加的Google日历与会者组与通过UI添加的组不同
google-calendar-api 
Google calendar api 谷歌日历API-创建和维护；通过电子邮件分享
google-calendar-api 
Google calendar api 以与会者身份更新google日历事件
google-calendar-api 
Google calendar api 如何解决在谷歌日历上看不到的全天活动的问题？
google-calendar-api 
Google calendar api 谷歌日历API：可以在自己的私人日历中存储事件吗？
google-calendar-api


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
将pyspark数据帧转换为LabeledPoint，而不降低到RDD
									Pyspark
							 
Pyspark 如何基于时间戳差异高效地连接两个日期框？
									Pyspark
							 
Pyspark 使用'时出错；textFile.count（）'；
									Pyspark
							 
如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理？
									Pyspark
							 
Pyspark 有没有办法将超过255列加载到Spark数据帧？
									Pyspark
							 
Pyspark：与部分键连接
									Pyspark
							 
Pyspark-将列表/元组传递给toDF函数
									Pyspark
							 
PySpark带来了巨大的恐惧，但该模块实际上存在并且运行良好
									Pyspark
							 
Pyspark 将spark back中的mapType列与原始数据帧联接/展开
									Pyspark
							 
调用o26.createStream-pyspark，kafka时出错
									Pyspark
							 									Apache Kafka
							 
使用pyspark“读取拼花地板文件时出错；必填字段'；版本'；在序列化数据中找不到&引用；
									Pyspark
							 
Pyspark 远程解释器：错误：无法'；t从流中读取整数值
									Pyspark
							 									Pycharm
							 									Jupyter Notebook
							 
将pyspark数据帧转换为JSON时出现性能问题
									Pyspark
							 
Pyspark 使用Spark减去数据帧
									Pyspark
							 
按数组中的特定记录分组（pyspark）
									Pyspark
							 
pyspark中基于日期列的条件语句
									Pyspark
							 
PySpark超时异常
									Pyspark
							 
UDF函数，用于使用pyspark检查输入数据帧是否有重复列
									Pyspark
							 
Pyspark:保存sql.dataframe时出现内存错误
									Pyspark
							 
查找PySpark中window.partitionBy上提取最小值的行值
									Pyspark
							 
Pyspark群集模式异常-Java网关进程在向驱动程序发送其端口号之前退出
									Pyspark
							 									Airflow
							 
Pyspark 用上一个和下一个非缺失值填写行缺失值
									Pyspark
							 
Pyspark 如何更正model.json的列数大于输出的CSV文件
									Pyspark
							 									Dynamics Crm
							 
通过将具有fillna的两列与pyspark中的现有列值连接起来，创建新列
									Pyspark
							 
Pyspark 使用动态生成的查询查询Pypark数据帧
									Pyspark
							 
Pyspark 通过保存最新值将数据流传输到增量表
									Pyspark
							 
Pyspark 星火销售团队
									Pyspark
							 									Jar
							 									Salesforce
							 
使用“错误”；附加“；使用Pyspark saveAsTable方法的模式
									Pyspark
							 
wrker.py的Pyspark（Jupyter）中没有模块错误
									Pyspark
							 									Jupyter Notebook
							 
pyspark.ml随机森林模型要素重要性结果是否为空？
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Compiler Construction
Computer Vision
Asynchronous
Microsoft Graph Api
Wix
Server
Verilog
Artifactory
Binary
Lambda
Service
Jasmine
Google Bigquery
Aurelia
Cryptography
Ember.js
Powerbi
Rss
Jqgrid
Xcode4
Ibm Mobilefirst
Datetime
Sms
Tomcat
Orm
Ssas
Visual Studio 2017
Sql
Symfony1
Dask
Mips
Testing
Yii2
Architecture
Windows Phone 7
Jaxb
Vaadin
Netlogo
Material Ui
Phpmyadmin
Asp.net Mvc 4
Wcf
Ibm Cloud
Video
Pascal
Android
Entity Framework Core
Ipython
Docker Compose
Dependencies
Jms
Google Chrome Devtools
Arrays
Xamarin.forms
Jdbc
Pdf
Model
Seo
Loops
Post
File Io
Paypal
If Statement
Keyboard
Activerecord
Opengl Es
Ruby On Rails 3.1
Vbscript
Drupal
Office Js
Kernel
Drupal 7
Gulp
Combobox
Command Line
Yaml
Utf 8
Domain Driven Design
Dart
Netty
Google Cloud Dataflow
Nginx
Scheme
Serialization
Image Processing
Ssrs 2008
Download
Plsql
Xamarin
Serial Port
Internet Explorer
Windows 7
Data Binding
Log4j
Jakarta Ee
Com
Network Programming
Dns
Windows Phone 8.1
Docusignapi
Opencv
Python 3.x
Less
Automation
Gtk
Io
Algorithm
Opencl
Rxjs
Error Handling
Compilation
Certificate
Open Source
Jar
Google Maps Api 3
Kibana
Robotframework
Actions On Google
Clojure
Speech Recognition
Graphql
Centos
Mercurial
Windows Phone
Laravel
Google Compute Engine
Ckeditor
Windows 10
Matrix
Gmail
Ssis
Debugging
Asp.net Core
.net 4.0
Scikit Learn
Vue.js
Hadoop
Maven 2
Swift3
Python Sphinx
Amazon Cloudformation
Coffeescript
Forms
Mapping
Synchronization
Here Api
Deep Learning
Azure Sql Database
Jhipster
Sass
Flutter
Discord.js
Subsonic
Sorting
Reporting Services
File
Cakephp
Abap
Twitter
Winapi
Web Applications
Process
Rest
Titanium
Wxpython
Curl
Microservices
Big O
Twig
Amazon Ec2
Azure
Cocoa
Asp Classic
Signalr
Drop Down Menu
Pentaho
Installation
Exchange Server
Xaml
Winforms
Monitoring
Ipad
Ignite
Google Calendar Api
Windows Runtime
Mobile
Properties
Devexpress
Exception
Menu
Glassfish
Couchbase
Api
Quickbooks
Orientdb
Unity3d
Asp.net
Ms Office
Apache2
Project Management
Google Sheets


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网