Python 如何使用Spark SQL创建和执行集合操作？_Python_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 如何使用Spark SQL创建和执行集合操作？

python apache-spark pyspark

Python 如何使用Spark SQL创建和执行集合操作？,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我使用Spark SQL创建了一个名为todays\u id和previous\u days\u id的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合，然后计算一列ID和另一列ID之间的差异。到目前为止，我使用了UDF： df=spark.sql（“”） …查询以生成今天和前一天的ID数组列 """) #计算两个集合之间差异大小的udf differencer=udf（lambda x，y:len（set（x）-set（y）），IntegerType（） df=df.wi

我使用Spark SQL创建了一个名为

todays\u id

和

previous\u days\u id

的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合，然后计算一列ID和另一列ID之间的差异。到目前为止，我使用了UDF：

df=spark.sql（“”）
…查询以生成今天和前一天的ID数组列
""")
#计算两个集合之间差异大小的udf
differencer=udf（lambda x，y:len（set（x）-set（y）），IntegerType（）
df=df.withColumn（'difference'，differenticer（'todays\u id'，'previous\u days\u id'））
df.createOrReplaceTempView（“差异”）

然后，我可以在

差异列中计算一个“新鲜度”分数，即ID相对于前一天每天的变化量
有没有一种方法可以通过Spark SQL实现这一点，而不使用UDF？我在中找不到关于使用集合的任何信息。
size
和array\u除了
应等同于您对len（set（x）-set（y））的操作之外。
：
import pyspark.sql.functions as F

df2 = df.withColumn('difference', F.size(F.array_except('todays_ids', 'previous_days_ids')))




[apache spark]相关文章推荐



                                                        
Apache spark 什么是广播变量？他们解决了什么问题？
apache-spark 
Apache spark 垃圾收集火花流检查点
apache-spark 
Apache spark Can'；t在EMR 5.0上实例化SparkSession
apache-spark 
Apache spark 使用Java从SPARK向HBase表写入数据时出现安全问题
apache-sparkhbase 
Apache spark Spark作业在Spark_LOCAL_DIRS位置填充磁盘
apache-spark 
Apache spark 将RDD[Long，String，Long]转换为sql.DataFrame
apache-spark 
Apache spark Spark Streaming：在>；写入记录：BatchAllocationEvent
apache-spark 
Apache spark 在端口249处运行的火花
apache-sparkssh 
Apache spark spark表是否像RDBMS一样永久存储数据，并且数据始终可用？
apache-spark 
Apache spark 使用spark中的下推查询，如何在spark HBASE（BIGSQL作为SQL引擎）中获得并行性？
apache-sparkdataframeparallel-processinghbase 
Apache spark 如果列的数据类型为String，是否有办法在Spark JDBC中的“option”（“partitionColumn”，“colname”）”中定义“partitionColumn”？
apache-spark 
Apache spark 动态加载jar到Jupyter笔记本中的Spark驱动程序
apache-sparkjupyter-notebook 
Apache spark Spark将元数据添加到拼花地板/ORC文件
apache-sparkhadooppyspark 
Apache spark 变换数组'；分裂后的s元素
apache-sparkpyspark 
Apache spark 我应该下载哪个Spark版本来运行在Hadoop 3.1.2之上？
apache-sparkhadoop 
Apache spark 理解拼花地板文件'；使用拼花工具打印的s元数据信息“；meta"；命令
apache-spark 
Apache spark Spark迭代/递归算法-打破Spark沿袭
apache-spark 
Apache spark 纱线火花：提交的作业是否接受？
apache-spark 
Apache spark PySpark SQL中读写API调用的并行执行
apache-sparkpyspark 
Apache spark pyspark mllib模型摘要'；ROC和x27下的区域；计算逻辑
apache-sparkpyspark 
                                       





随机文章推荐



                                                        
启动时更新OSGi捆绑包
osgi 
为OSGI包设置startlevel
osgi 
比较OSGi测试框架
osgi 
Osgi 使用上下文加载器加载资源失败，出现NullPointerException
osgi 
javax.imageio.spi.ServiceRegistry是否在OSGi容器中工作？
osgi 
Osgi 如何更改Felix gogo shell中的默认命令范围？
osgi 
Osgi 如何在RAP运行时运行GEF应用程序
osgieclipse-rcp 
Apache felix osgi无法导出包
osgi 
Osgi 通过API创建新的CXF总线
osgi 
OSGiDS：DS组件中对所需服务的可选引用，实际上不可动态更新
osgi 
Osgi Virgo服务器插件冲突解决程序
osgi


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Apache使用Python2.4，Python2.5脚本失败
									Python
							 									Apache
							 
python中的独立应用程序
									Python
							 
基于Python的支持向量机库
									Python
							 									Machine Learning
							 
在Python脚本中使用命令创建原始输入
									Python
							 
参数大小不同的Python函数指针
									Python
							 
Python 两个函数的逻辑与
									Python
							 
Python-Regex，多重匹配
									Python
							 									Regex
							 									Python 2.7
							 
Python 火花消减与地图问题
									Python
							 									Apache Spark
							 									Pyspark
							 
使用数组数据初始化Python类
									Python
							 									Oop
							 									Python 3.x
							 
Python Scipy最大化线性规划不'；行不通
									Python
							 									Numpy
							 
Python pyserial没有输出
									Python
							 
Python Can'；t安装烧瓶\u sqlalchemy->；ImportError:没有名为flask_sqlalchemy的模块
									Python
							 									Flask
							 
替换bash curl的Python HTTP请求
									Python
							 									Bash
							 									Curl
							 
Python 基于列值查找DataFrame中的下一行
									Python
							 									Numpy
							 									Pandas
							 
Python Heroku local不工作，但在生产服务器上工作
									Python
							 									Django
							 									Heroku
							 
Python SQLite3插入
									Python
							 									Sqlite
							 
Python 批处理和分解图像
									Python
							 									Opencv
							 
Python 在axis=1上调用inplace参数上的fiilna（）方法时返回错误
									Python
							 									Pandas
							 
在Python中指定源语言Google翻译API
									Python
							 									Google Api
							 
Powershell和Python-如何以管理员身份运行命令
									Python
							 									Powershell
							 									Cmd
							 
Python 熊猫显示：截断列显示而不是换行
									Python
							 									Pandas
							 
PythonWeb抓取-循环浏览所有类别和子类别
									Python
							 
Python 使用Mongomock测试$lookup聚合
									Python
							 									Mongodb
							 									Unit Testing
							 
Python 用辛方法数值计算一个方程
									Python
							 
无法为LZ4支持加载Python扩展。LZ4压缩将不可用
									Python
							 
Python Frontfill和回填数据框中缺少的组值
									Python
							 									Pandas
							 
Python 如何在folium热图中实现权重？
									Python
							 
Python Keras.model.summary无法正确显示我的模型。。？
									Python
							 									Tensorflow
							 									Keras
							 
Python 从字典中调用IntEnum类
									Python
							 									Python 3.x
							 									Enums
							 
Python 在dataframe中展开时间序列数据
									Python
							 									Pandas
							 									Dataframe
							 									Numpy
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Synchronization
Computer Vision
Jakarta Ee
Sql Server 2005
Bots
Hadoop
Mpi
Logstash
Routing
Instagram
View
Wix
Redis
Service
Android Layout
Rdf
Maps
File Upload
Websocket
Zend Framework
Meteor
Twitter Bootstrap 3
Macos
Amazon Dynamodb
Asp.net Mvc 3
Oop
Flash
Aframe
Transactions
Ruby
Coding Style
Google App Engine
Xampp
Seo
Indexing
Pycharm
Windows Store Apps
Hybris
Twilio
Image
Youtube Api
Octave
Ffmpeg
Leaflet
Verilog
Nhibernate
Routes
Composer Php
Vb.net
Azure
Python 2.7
Opengl
Continuous Integration
Hbase
Search
Cryptography
Authentication
Knockout.js
Listview
Socket.io
Spring Batch
Bison
Angular Material
Github
Gmail
Rx Java
C++ Cli
Model
Atom Editor
Codeigniter
Mongodb
Data Structures
Tags
Dependency Injection
Streaming
Debugging
Asp Classic
Filter
Applescript
Opencart
Google Cloud Storage
Documentation
Compiler Construction
Plsql
Actionscript
Maven
Uml
Swift
Function
Symfony1
Groovy
Model View Controller
Zurb Foundation
Elixir
Openid
Phpunit
Migration
Collections
Firefox Addon
Wxpython
Sharepoint
Certificate
Google Visualization
D
Menu
Ant
Binary
Shiny
Button
Xaml
Lisp
Corda
Sequelize.js
Devexpress
Input
F#
Jestjs
Erlang
Typo3
Cmd
Ada
Django
Resharper
Dataframe
Rspec
Cookies
Ocaml
Vmware
Html
Couchbase
.net 4.0
Yocto
Map
Youtube
Responsive Design
Asp.net Mvc
Ibm Cloud
Extjs
Karate
Api
Visual Studio 2008
Intellij Idea
Hive
E Commerce
Monitoring
Drools
Operating System
Lotus Notes
Jaxb
.net Core
Spring Integration
Fiware
C++11
Xmpp
Filesystems
Opencv
Sqlalchemy
Axapta
Rally
Nlp
Nestjs
Spring Mvc
Lambda
Ssas
C# 3.0
Directory
Dynamics Crm
Blackberry
Design Patterns
Z3
Tfs
Cassandra
Sharepoint 2010
Sql
Sql Server
Serial Port
Junit
If Statement
Soap
Url
Fluent Nhibernate
Hyperlink
Julia
Google Cloud Platform
Jquery Ui
Mariadb
Objective C
Spring
Coffeescript
Data Binding
Animation
Modelica
Kdb
Iframe
Ajax
Scala
.net
Loops
Random
For Loop
Login


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网