Python 如果两个列值位于另一个数据帧中，如何在pyspark中添加列？_Python_Python 2.7_Apache Spark_Pyspark_Spark Dataframe - Fatal编程技术网

Python 如果两个列值位于另一个数据帧中，如何在pyspark中添加列？

python python-2.7 apache-spark pyspark

Python 如果两个列值位于另一个数据帧中，如何在pyspark中添加列？,python,python-2.7,apache-spark,pyspark,spark-dataframe,Python,Python 2.7,Apache Spark,Pyspark,Spark Dataframe,我对派斯帕克很陌生。我有两个这样的数据帧： df1： df2： df1中的标签列最初不存在。我后来加的。如果df1的[user\u id，sku\u id]对在df2中，那么我想在df1中添加一列并将其设置为1，否则为0，就像df1显示的那样。我怎样才能在pyspark中完成它？我正在使用py2.7。首先在两个数据帧上进行左外连接，然后在右数据帧的一列上使用和函数。这是我尝试过的完整解决方案- from pyspark.sql import functions as F from pyspa

我对派斯帕克很陌生。我有两个这样的数据帧：

df1：

df2：

df1中的标签列最初不存在。我后来加的。如果df1的

[user\u id，sku\u id]

对在df2中，那么我想在df1中添加一列并将其设置为1，否则为0，就像df1显示的那样。我怎样才能在pyspark中完成它？我正在使用py2.7。

首先在两个数据帧上进行左外连接，然后在右数据帧的一列上使用

和函数。这是我尝试过的完整解决方案-
from pyspark.sql import functions as F
from pyspark.sql.functions import col

# this is just data input
data1 = [[4,3,3],[2,4,3],[4,2,4],[4,3,3]]
data2 = [[4,3,3],[2,3,3],[4,1,4]]

# create dataframes
df1 = spark.createDataFrame(data1,schema=['userId','sku_id','type'])
df2 = spark.createDataFrame(data2,schema=['userId','sku_id','type'])

# condition for join
cond=[df1.userId==df2.userId,df1.sku_id==df2.sku_id,df1.type==df2.type]

# magic
df1.join(df2,cond,how='left_outer')\
  .select(df1.userId,df1.sku_id,df1.type,df2.userId.alias('uid'))\
  .withColumn('label',F.when(col('uid')>0  ,1).otherwise(0))\
  .drop(col('uid'))\
  .show()

输出：
+------+------+----+-----+
|userId|sku_id|type|label|
+------+------+----+-----+
|     2|     4|   3|    0|
|     4|     3|   3|    1|
|     4|     3|   3|    1|
|     4|     2|   4|    0|
+------+------+----+-----+




[python 2.7]相关文章推荐



                                                        
Python 2.7 在使用Oauth2的tweepy中使用api.update_status方法时出错
python-2.7 
Python 2.7 是python+；熊猫能够处理大量数据吗？
python-2.7numpypandas 
Python 2.7 Timeit模块使用困难
python-2.7timer 
Python 2.7 Scrapy和Wikipedia，获取空字符串
python-2.7xpathscrapy 
Python 2.7 使用smtplib发送空消息
python-2.7 
Python 2.7 每隔一封信
python-2.7 
Python 2.7 如何在Python2.7中引发弃用警告？
python-2.7pycharm 
Python 2.7 使用python2.7和python3.x的Vim源代码编译选项
python-2.7python-3.xvim 
Python 2.7 在图中寻找孤立圈
python-2.7 
Python 2.7 在Pygame中绘制连续线
python-2.7 
Python 2.7 OpenBLAS的numpy比blas/lapack慢
python-2.7numpy 
Python 2.7 熊猫：datareader无法获取历史股票数据
python-2.7pandas 
Python 2.7 模拟谷歌目录管理API
python-2.7unit-testing 
Python 2.7 python中的While循环澄清-错误
python-2.7loops 
Python 2.7 如何识别此圆边？
python-2.7opencvimage-processing 
Python 2.7 康威'；生命指数误差的s博弈
python-2.7for-loop 
Python 2.7 有限差分修正拉普拉斯系数矩阵（Python）
python-2.7 
Python 2.7 将数据写入.csv文件：仅来自函数最后一次迭代的值（Python、pandas）
python-2.7functioncsvpandas 
Python 2.7 Python：当元素匹配子字符串时，如何复制列表中的元素
python-2.7list 
Python 2.7 如何从存储的excel行调用并仅返回值而不返回坐标？
python-2.7seleniumrobotframework 
                                       





随机文章推荐



                                                        
C# 3.0 使扩展方法通用
c#-3.0 
C# 3.0 如何利用c中的进程句柄查找进程名#
c#-3.0 
C# 3.0 将Html表转换为datatable的最佳方式是什么
c#-3.0 
C# 3.0 使用HttpWebrequest-c时，handle StatusCode==302#
c#-3.0 
C# 3.0 如何使用asp.net c读取文本文件并将其保存在excel工作表中#
c#-3.0 
C# 3.0 如何使用smtp c基于发件人电子邮件地址发送邮件#
c#-3.0 
C# 3.0 当我尝试输入时，输入行被修剪为88位
c#-3.0


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
从mod_python到mod_wsgi的转换
									Python
							 
Python 是否保证列表中的结果顺序？
									Python
							 
Python 带有回溯的日志异常
									Python
							 									Exception
							 									Logging
							 									Error Handling
							 
python：如何使用收件人、抄送和密件抄送发送邮件？
									Python
							 									Email
							 									Testing
							 
python以mm/dd/yyyy HH:mm格式在文件上获取时间戳
									Python
							 									Date
							 
Python语法分析器中的错误处理
									Python
							 									Python 2.7
							 									Python 3.x
							 
Python 无法将plotly导入Jupyter笔记本
									Python
							 									Installation
							 									Anaconda
							 
Python Django：将数据从模型转换为视图的最佳方式
									Python
							 									Django
							 
Python 如何在dataframe中正确使用fillna（）作为datetime列（不工作）？
									Python
							 									Python 3.x
							 									Pandas
							 									Datetime
							 
Python 在numpy列中选择最大元素并获取它'；s排
									Python
							 									Arrays
							 									Python 3.x
							 									Numpy
							 
Python 属性错误：'；文件'；对象没有属性'_承诺'。重命名图像django模型
									Python
							 									Django
							 									Database
							 									Django Models
							 
Python 按差和和分组
									Python
							 									Pandas
							 
Python 在“渴望”模式下，如何将张量转换为数组
									Python
							 									Tensorflow
							 
Python Matplotlib:figure.add_轴从x、y转换为相对坐标
									Python
							 									Matplotlib
							 
Python 使用MongoDB的嵌套文档创建Pandas表
									Python
							 									Pandas
							 
Python 更改groupby使用的函数中的值
									Python
							 									Pandas
							 
用python脚本访问Orion CB
									Python
							 									Fiware
							 
如何在Python3.7中使用regex来拥有2个或3个组？
									Python
							 									Regex
							 
Python OpenCV或PyteSeract可以识别字体吗
									Python
							 									Opencv
							 
Python 在图或林中提取不同的树
									Python
							 									Graphviz
							 
Python 熊猫数据帧如何存储在内存中？
									Python
							 									Pandas
							 
Python 如何从数据库中动态获取表？
									Python
							 									Database
							 
Python tf转换器在仍然遇到未解析的自定义op时所有映射
									Python
							 									Tensorflow
							 
Python 尝试在pyqt5 gui应用程序中使用4x4键盘
									Python
							 									Python 3.x
							 
Python 使用append调用以类变量为目标的类
									Python
							 									Python 3.x
							 
Python 从数据帧中的多个列表列获取元素
									Python
							 									Pandas
							 
无法下载Python 3.x中文件的最新版本
									Python
							 									Python 3.x
							 									Http
							 									Download
							 
Python 无法从维德情绪分析器获取极性分数
									Python
							 									Csv
							 									Nlp
							 
Python 并行刮取数据+；批处理
									Python
							 									Pandas
							 									Web Scraping
							 
Python 如何在Google或Tools中设置每条路线的最小位置？
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Oracle10g
Elm
Rx Java
Liferay
Twilio
Azure Data Factory
Apache
Maven 2
Eclipse Plugin
.net 4.0
Tabs
Directory
Asp.net Core
Cakephp
C#
Modelica
Logging
Pandas
Google Chrome
Timer
Lisp
Javafx 2
Jira
Xcode4
Webview
Shell
Xpath
Quickbooks
Push Notification
Windows
Database
Macos
Arrays
Assembly
Haskell
Android Studio
Codeigniter
Rspec
Yii2
Uitableview
Prestashop
Sonarqube
Hyperlink
Three.js
Spotify
Login
D
Atom Editor
Domain Driven Design
Snmp
Html5 Canvas
Cluster Computing
Mobile
Dotnetnuke
Windows Phone 8.1
Perl
Centos
Logstash
Maps
Arangodb
Design Patterns
Sdk
Twig
Jasmine
Sharepoint
Twitter Bootstrap 3
Vaadin
Windows Store Apps
Ruby
Opencv
Sapui5
Coq
Xamarin.forms
Variables
Ipython
C
Navigation
Wso2
Akka
Kendo Ui
Url Rewriting
Amazon Ec2
Openstack
Oracle
Python Sphinx
Subsonic
Activerecord
Vbscript
Webrtc
Discord.js
Vb.net
Mule
Sas
Class
Logic
Grep
Ruby On Rails 3.2
Windbg
Netty
Replace
Qt
Keyboard
Machine Learning
Polymer
Django Rest Framework
Wix
Notepad++
Outlook
Calendar
Artificial Intelligence
Laravel 5
Coffeescript
Matlab
Apache Kafka
Libgdx
Redux
Alfresco
Paypal
Twitter Bootstrap
Hibernate
Electron
If Statement
Kentico
Math
Jestjs
Sails.js
Apache Camel
Gdb
Wpf
Android Emulator
Data Structures
Tfs
Excel
Formatting
Java Me
Eclipse Rcp
Glassfish
Jekyll
Ios7
Youtube Api
Methods
Facebook Graph Api
Doctrine Orm
Amazon Dynamodb
Kibana
Gruntjs
Snowflake Cloud Data Platform
Here Api
Report
Memory Leaks
Jvm
Workflow
Opengl
Solr
Google Analytics
Git
Teamcity
Cocos2d X
Java 8
Open Source
Umbraco
Service
Firebase
Azure
Regex
Mvvm
Deep Learning
Notifications
Visual Studio 2015
Shiny
Inno Setup
Multithreading
Floating Point
Authentication
Wordpress
Tree
Server
Angular Material
Jdbc
Types
Apache Flink
Pip
Symfony1
Anaconda
Internet Explorer
Jwt
Spring Boot
Redirect
Kubernetes
Ignite
Kdb
Command Line
Hybris
Api
Gwt
Video
Appium
Serialization
Redis
Amazon Cloudformation
Google App Maker


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网