Python Pyspark比较两个列表列_Python_Pyspark - Fatal编程技术网

Python Pyspark比较两个列表列

python pyspark

Python Pyspark比较两个列表列,python,pyspark,Python,Pyspark,我有一个如下的数据帧。这两列是列表 df= sc.parallelize([ {"subject_1":['A','B'],"subject_2":['A','B','C'] }, {"subject_1":['A','C'],"subject_2":['A','B','C'] }, {&qu

我有一个如下的数据帧。这两列是列表

df= sc.parallelize([
            {"subject_1":['A','B'],"subject_2":['A','B','C']  },            
            {"subject_1":['A','C'],"subject_2":['A','B','C']  },             
            {"subject_1":['A','B','D'],"subject_2":['A','B','E']  }  
 ]).toDF()
df.show()

我需要如下转换数据帧。添加从前两列派生的三个新列。这需要比较两列列表中的项目

执行此操作的最佳方法是什么？

对于Spark2.4+
，使用

和array\u，但除外：
from pyspark.sql import functions as F

df.withColumn("both", F.array_intersect("subject_1","subject_2"))\
  .withColumn("only_1", F.array_except("subject_1","subject_2"))\
  .withColumn("only_2", F.array_except("subject_2","subject_1")).show()

#+---------+---------+------+------+------+
#|subject_1|subject_2|  both|only_1|only_2|
#+---------+---------+------+------+------+
#|   [A, B]|[A, B, C]|[A, B]|    []|   [C]|
#|   [A, C]|[A, B, C]|[A, C]|    []|   [B]|
#|[A, B, D]|[A, B, E]|[A, B]|   [D]|   [E]|
#+---------+---------+------+------+------+

我还在2.3版本。你需要为它写一个自定义项。类似于，但您的数据来自两列，而不是一列和预先确定的列表。@KeerikkattuChellappan如果没有2.4，udf是唯一的出路。建议更新到2.4，以便将来使用阵列或其他更高顺序的数据。




[pyspark]相关文章推荐



                                                        
Pyspark 齐柏林飞艇PypSpark中变量的自动计算
pyspark 
Pyspark Pypark Sortby没有'；你不能处理多个值吗？
pyspark 
Pyspark：将完整字典传递给每个任务
pyspark 
E-num/在pyspark中获取假人
pyspark 
Pyspark术语文档矩阵->；用于术语聚类的行中术语和列中文档
pyspark 
Dataproc PySpark作业“；“未获取任务”；或；“任务租约已到期”；
pysparkgoogle-cloud-platform 
在pyspark中比较两个数据帧以创建新数据帧
pyspark 
使用pyspark基于另一列中的值连接两列
pyspark 
pyspark.sql模块错误：worker中的Python版本2.7与驱动程序3.7中的版本不同，pyspark无法使用不同的次要版本运行
df=spark.read.parquet（'xxx'））
tmstmp=df[“时间戳”]
spark.conf.set（“spark.sql.session.timeZone”，“Singapore”）
time_df=spark.createDataFrame（[（'tmstmp'，）]，['unix_time']）
时间差。选择（从unixtime（'uni
pyspark 
Pyspark Jupyter中缺少监视器小部件
pyspark 
从PySpark中的月份和年份字符串列创建时间戳
pyspark 
Pyspark 结合两种不同的RDD'；具有两组不同数据但具有相同密钥的
pyspark 
pyspark客户端模式下的Java堆空间OutOfMemoryError
pyspark 
pyspark中addPyFile的用法不明确
pyspark 
PySpark MultiLayerPercepTronClassifier似乎无法使用OneHotEncoding工作
pyspark 
Pyspark 在python中安装增量模块的正确方法是什么？
pyspark 
名称错误：全局名称'；第'行；未定义（pyspark）
pyspark 
在pyspark数据帧中显示所有匹配的字符串
pyspark 
PySpark Delta表-生成符号链接[java.lang.NoSuchMethodError]
pyspark 
Pyspark Pypark can'；t停止将空字符串读取为null（spark 3.0）
pyspark 
                                       





随机文章推荐



                                                        
Linux kernel 将设备驱动程序代码映射到逻辑分析仪波形
linux-kernel 
Linux kernel 如何删除失败的内核模块
linux-kernel 
Linux kernel 获取网络抖动和带宽的内核模块？
linux-kernelstatistics 
Linux kernel 从linux设备驱动程序更改smp_关联
linux-kernel 
Linux kernel 将DMA映射转换为虚拟地址
linux-kernel 
Linux kernel 如何找到连接到哪个物理设备/开发人员/控制台？
linux-kernel 
Linux kernel vsdo和vsyscall之间的差异
linux-kernelx86 
Linux kernel 如何确定虚拟内核地址是否有效？
linux-kernel 
Linux kernel xscal臂上偶尔出现故障“；未处理的故障：0x40019004处的外部中止（0x416）不精确；
linux-kernelarm 
Linux kernel 内核版本错误，insmod失败
linux-kernelkernel 
Linux kernel 使用深度优先树迭代所有任务的内核模块
linux-kernel 
Linux kernel 作为SPI从机的Linux内核控制器
linux-kernel 
Linux kernel 如何在Linux内核中使用pl081 DMA驱动程序
linux-kernelarm 
Linux kernel 执行读取硬件寄存器的函数时内核OOP
linux-kernel 
Linux kernel linux源代码中arch/i386/kernel/head.S中的ALIGN是什么
linux-kernel 
Linux kernel Linux内核如何找到正确的偏移量来解析IP数据包？
linux-kernelip 
Linux kernel 在/proc/kallsyms（内核4.5.4-1-ARCH）中找不到init_任务符号
linux-kernel 
Linux kernel 从linux获取邻居表
linux-kernel 
Linux kernel 与内核共享内存和编译器优化
linux-kernelx86 
Linux kernel 为奇怪的键盘编写Linux驱动程序
linux-kernel


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python SQLAlchemy，使用表继承过滤联接查询
									Python
							 									Join
							 									Sqlalchemy
							 
在wxpython中创建弹出窗口
									Python
							 									Wxpython
							 
Python 在不知道数据布局的情况下访问json类型的数据？
									Python
							 									Json
							 									List
							 									Dictionary
							 
python在这一行中获取数字的良好实践
									Python
							 
不包含关键字参数的正确组合的正确Python异常
									Python
							 									Python 2.7
							 									Exception
							 
Python KeyError组合日期和小时列后，matplotlib赢了'；我不认识我的一个专栏，其他的很好
									Python
							 									Pandas
							 									Matplotlib
							 
Python Spyder：如何注释特定的代码段？
									Python
							 
如何在python中使用groupby运行t测试
									Python
							 									Python 3.x
							 									Pandas
							 									Statistics
							 
Python 如何处理自定义丢失的Lightgbm中的错误？
									Python
							 									Machine Learning
							 									Scikit Learn
							 
Python 如何设置特定于我的代理的一些属性，以防止原始对象获取它
									Python
							 
Python：类型提示中的私有类型？
									Python
							 									Types
							 
Python 计算圆形阵列中元素之间的距离
									Python
							 									Arrays
							 
Python 你能一直在列表中添加东西直到某一点吗？
									Python
							 									List
							 
在C#控制台应用程序中运行Python EXE（在PyInstaller中创建）
									Python
							 									C#
							 									Python 3.x
							 									Process
							 
Python 基于重复的日期时间索引，使用另一个数据帧中的值覆盖一个数据帧
									Python
							 									Pandas
							 									Dataframe
							 
如何将python pygame函数从字符串更改为python中的函数？
									Python
							 									Json
							 									String
							 
Python 对密钥域中的列表进行排序
									Python
							 									Sorting
							 									Lambda
							 
“错误”；TypeError：列表索引必须是整数或片，而不是str"；使用python尝试从json文件访问数据时发生
									Python
							 									Json
							 									String
							 
Python 如何在scikit中过度拟合决策树？有目的地学习？
									Python
							 									Scikit Learn
							 
Python 数据透视表存在问题-信息压缩在一行中
									Python
							 									Pandas
							 
Python 删除列表中作为dict值的条目
									Python
							 									List
							 									Dataframe
							 									Dictionary
							 
Python 使用max-sum-can'；不要比较问题
									Python
							 									Binary
							 
Python中的列置换
									Python
							 									Matrix
							 
Python 如何强制零截取并记录时间序列？
									Python
							 									Numpy
							 									Matplotlib
							 
Python 我如何计算所有可能途径的二氧化碳排放量，而不是像代码行变量'；距离'；
def main（）：
端口名=[“PAN”、“AMS”、“CAS”、“NYC”、“HEL”]
D=[
[0,8943,8019,3652,10545],
[8943,0,2619,6317,2078],
[8019,2619,0,5836,4939],
[3652,6317,5836,0,7825],
[10545,2078,4939,7825,0]
]
二氧化碳=0.020
路由=[0,1,2,3,4]
距离=D[
									Python
							 									List
							 									Optimization
							 
Python opencv不失真点不'；不失真
									Python
							 									Opencv
							 
Python 基于具有字典值的列在Dataframe中添加列
									Python
							 									Pandas
							 									Dictionary
							 
Python 类继承自ZeroDivisionError并在try-except块中使用它。除非块未执行
									Python
							 									Class
							 									Inheritance
							 
Python 使用pytest模拟导入模块中包含的函数的行为
									Python
							 
Python 可调用对象不可调用
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Pycharm
Java Me
Nsis
Zend Framework2
Activerecord
Laravel 4
Windows Phone
3d
Csv
Scheme
Imagemagick
Matplotlib
Discord.py
C# 4.0
Android Studio
Ruby On Rails 3.2
Django Rest Framework
Compiler Construction
Tree
Asp.net Mvc 4
Automation
Markdown
Perl
Input
Ipython
Jdbc
Project Management
Visual Studio 2013
Grid
Mariadb
Dialogflow Es
Prolog
Yii2
Core Data
Redirect
Windows Phone 7
Java 8
System Verilog
Docker
Microsoft Graph Api
Api
Marklogic
Mule
Cygwin
Webview
Compression
Joomla
Twig
Ios5
Sencha Touch
Powershell
Time
Google Maps
Email
Swagger
Perforce
Web Crawler
Functional Programming
Xaml
Methods
Jms
Couchdb
Asp.net
Keycloak
Windows Store Apps
Jboss
Gdb
Asp.net Core Mvc
Jakarta Ee
Search
Twitter
Utf 8
Google App Engine
Xsd
Ffmpeg
Ide
Primefaces
Ftp
Cloud
Gridview
Llvm
X86
Inheritance
Navigation
Devexpress
Gps
Awk
Snmp
Indexing
Raspberry Pi
Data Structures
Download
Cron
Telegram
Amazon S3
Internet Explorer 8
Protocol Buffers
Binary
Editor
Amazon Cloudformation
Pine Script
Date
Dart
Ms Word
Hyperledger Fabric
Tkinter
Spring
Vbscript
Nativescript
Rx Java
Sharepoint 2010
Symfony
Replace
Fonts
Aws Lambda
Asp.net Mvc 5
Documentation
Oracle
Graphviz
Log4j
Enums
Google Apps Script
Bluetooth
Terraform
Ag Grid
Robotframework
Google Cloud Platform
Azure Ad B2c
Ipad
Web Services
Activemq
Spring Security
Apache Nifi
Drupal 7
Azure Active Directory
Sed
Google Plus
Nlp
Quickbooks
Wolfram Mathematica
Ionic2
Dynamic
Networking
Lucene
Yaml
Mapbox
Mod Rewrite
Qt
Pyspark
Linker
Xquery
Requirejs
Teradata
Localization
Process
Actionscript
Google Cloud Dataflow
Nginx
Vector
Ms Access
Arangodb
Loopbackjs
Python 2.7
Image
Shopify
Cocoa Touch
Entity Framework Core
Memory Management
Dns
Libgdx
Itext
Ssrs 2008
Function
Chart.js
Unix
Coding Style
Typo3
Authentication
Discord
Vagrant
Amazon Ec2
Ldap
Abap
.net Core
Apache2
Coq
Canvas
Facebook
Video
Sql Server 2005
Protractor
Opengl Es
Architecture
Virtualbox
Clang
Sml
Neo4j
Swiftui
Big O
Jqgrid
Linux Kernel


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网