迭代两个数据帧，比较并更改pandas或pyspark中的值_Pandas_Pyspark_Pyspark Dataframes - Fatal编程技术网

迭代两个数据帧，比较并更改pandas或pyspark中的值

pandas pyspark

迭代两个数据帧，比较并更改pandas或pyspark中的值,pandas,pyspark,pyspark-dataframes,Pandas,Pyspark,Pyspark Dataframes,我正试着在熊猫身上做运动我有两个数据帧。如果比较成功，我需要比较两个数据帧之间的几列，并更改第一个数据帧中一列的值数据帧1： Article Country Colour Buy Pants Germany Red 0 Pull Poland Blue 0 最初，我的所有文章都将“购买”标志设置为零。我的dataframe 2看起来如下： Article Origin Colour Pull

我正试着在熊猫身上做运动

我有两个数据帧。如果比较成功，我需要比较两个数据帧之间的几列，并更改第一个数据帧中一列的值

数据帧1：

Article    Country   Colour    Buy
Pants      Germany   Red       0
Pull       Poland    Blue      0

最初，我的所有文章都将“购买”标志设置为零。我的dataframe 2看起来如下：

Article    Origin    Colour   
Pull       Poland    Blue    
Dress      Italy     Red

我想检查文章、国家/原产地和颜色列是否匹配（因此检查我是否可以在数据框2中找到数据框1中的每一篇文章），如果是，我想将“购买”标志置于1

我试图用pyspark遍历这两个数据帧，但pyspark daatframes不可移植。我曾想过在pandas中这样做，但在迭代过程中改变值是一种不好的做法

pyspark或pandas中的哪些代码可以完成我需要做的事情

谢谢

使用指示器合并，然后映射值。确保在右侧帧中的合并关键点上放置重复项，以便合并结果始终与原始结果长度相同，并重命名，以便合并后不会重复相同的信息。无需预先定义0列
df1 = df1.drop(columns='Buy')
df1 = df1.merge(df2.drop_duplicates().rename(columns={'Origin': 'Country'}), 
                indicator='Buy', how='left')
df1['Buy'] = df1['Buy'].map({'left_only': 0, 'both': 1}).astype(int)


谢谢这很有效。现在我必须为另一个数据库做一些更复杂的事情，但我会打开另一个qq。
  Article  Country Colour  Buy
0   Pants  Germany    Red    0
1    Pull   Poland   Blue    1




[pyspark]相关文章推荐



                                                        
Pyspark 如何确定Spark中ALS.transImplicit的偏好/信心？
pyspark 
PySpark ML feature transform，调用拟合/变换方法两次或两次以上？
pyspark 
Pyspark 在DSX上导入SparkSession数据帧
pyspark 
具有混合值类型的MapType的PySpark UDF
pyspark 
PySpark-将映射函数添加为列
pyspark 
Pyspark 如何从模型中获取InputColumn名称？
pyspark 
Pyspark 错误：AttributeError:&x27；数据帧'；对象没有属性'_jdf&x27；
pyspark 
Pyspark 当与show方法或count一起使用时，jupyter单元格执行挂起并引发异常
pysparkjupyter-notebook 
如何对PySpark中的分组数据应用条件计数（带重置）？
pyspark 
Pyspark 基于某种条件在databricks笔记本中执行cmd单元格
pyspark 
Pyspark 如何避免在将数据帧写入CSV文件时生成crc文件和成功文件？
pyspark 
Pyspark spark submit在添加--py文件后挂起
pyspark 
Pyspark 如何在“groupBy（）”之后选择数据帧的特定行？
pyspark 
Pyspark Spark DataFrame获得全部<；p>；每个元素的xml文档中的xml标记
pyspark 
Pyspark Sql类型：联合[int，float]
pyspark 
Pyspark 如何在spark sql中将日期格式从字符串（2020年6月24日）更改为日期24-06-2020？
pyspark 
Pyspark 如何使用withColumn向UDF传递额外参数
pyspark 
使用pyspark识别大量数据中的更改
pyspark 
Pyspark Databricks在没有进展的情况下激发了工作
pyspark 
PySpark中的GCS连接器未读取CSV
pysparkgoogle-cloud-storage 
                                       





随机文章推荐



                                                        
Windows 8 Windows8编译JavaScript吗？
windows-8windows-runtime 
Windows 8 如何翻转Windows 8 Metro live互动程序中的图像按钮？
windows-8windows-runtimewindows-store-apps 
Windows 8 Javascript Metro应用程序中缩小视图的分组项语义缩放
windows-8windows-runtime 
Windows 8 为在Windows8上部署非metro应用程序创建了哪些快捷方式？
windows-8 
Windows 8 地铁应用程序中的共享合同
windows-8 
Windows 8 在windows 8 metro模式下创建ATL COM服务器
windows-8 
Windows 8 如果在CPU和网络限制内，WinRT后台任务是否可以长期存在？
windows-8windows-runtime 
Windows 8 如何使RabbitMQ管理命令行工具在Windows上工作
windows-8rabbitmq 
Windows 8 选择Windows运行时组件与可移植代码库
windows-8windows-runtimewindows-phone-8 
Windows 8 如何共享获取的图像？
windows-8windows-runtime 
Windows 8 Windows Phone 8仿真器-不工作
windows-8windows-phone-8 
Windows 8 如何在metro应用程序（winRT）中嵌入word文档
windows-8windows-runtime 
Windows 8 将多个参数发送到WinJS.Binding.converter（）函数
windows-8 
Windows 8 是否有Windows 8语音到文本和文本到语音API？
windows-8speech-recognition 
Windows 8 通过share charm在metro应用程序中共享视频和照片
windows-8windows-runtime 
Windows 8 msapplication starturl在现代Windows UI中被忽略
windows-8 
Windows 8 Winjs flipview不同项目模板
windows-8 
Windows 8 在Windows 8.1中，我如何检测我的应用程序何时在分割视图中接收焦点？
windows-8windows-runtimewindows-store-apps 
Windows 8 针对Windows应用商店的Windows 8.1紧急应用程序可行吗？
windows-8 
Windows 8 我可以为Chrome应用程序指定Windows 8开始互动程序的图标大小吗
windows-8


                                        

                                        
                                        


                                                
                                                        [pandas]相关推荐
                                                        
Pandas 如何对时间序列数据帧进行重采样？
									Pandas
							 									Ipython
							 
Pandas 为什么不是'；数字列上的布尔索引代码是否正常工作？
									Pandas
							 									Python 2.7
							 
pandas to_datetime函数默认年份
									Pandas
							 
缺少值的pandas映射和timedelta
									Pandas
							 
Pandas 按索引删除列将删除具有相同名称的所有列
									Pandas
							 
Pandas 绘制分类数据表/bokeh
									Pandas
							 
Pandas 将数据帧转换为内存中类似文件的对象？
									Pandas
							 
Pandas pd.merge用于多个数据帧
									Pandas
							 									Dataframe
							 									Merge
							 
如何获取行中哪些列在Pandas中的某些值内？
									Pandas
							 
Pandas 溢出错误：Python int太大，无法转换为C long-Matplotlib
									Pandas
							 									Matplotlib
							 
Pandas 每天将每日转换为每周
									Pandas
							 
Pandas 将数字上限/阈值应用于数据帧
									Pandas
							 									Numpy
							 									Dataframe
							 									Lambda
							 
Pandas 获取长方体区域内点的区域id（如果长方体包含点，则获取长方体id）
									Pandas
							 
Pandas 使用groupby.tail后如何创建数据帧
									Pandas
							 
Pandas 使用数据帧格式化另一个数据帧的样式
									Pandas
							 
Pandas 解决合并两列上的数据帧时的错误
									Pandas
							 									Merge
							 
Pandas 熊猫根据时差组合两个数据帧
									Pandas
							 									Dataframe
							 									Datetime
							 
Pandas 按检查员ID分组的总和，以及熊猫中的日期
									Pandas
							 									Datetime
							 
Pandas 在熊猫身上还能看到丢失的数据吗？
									Pandas
							 									Dataframe
							 
Pandas 如何将函数作为参数应用于多个列？
									Pandas
							 									Function
							 
Pandas 如何使用zorder更改这些绘图的顺序？
									Pandas
							 									Matplotlib
							 
Pandas 如何在dataframe中创建新列并使用0将其全部分配？
									Pandas
							 									Dataframe
							 
Pandas 比较两个数据帧并找出最大差异
									Pandas
							 									Dataframe
							 
Pandas 熊猫和海洋生物的图形绘制
									Pandas
							 
Pandas 控制顺序色调在seaborn中绘制
									Pandas
							 									Matplotlib
							 
Pandas 我错过了什么？学习适应模块
									Pandas
							 									Scikit Learn
							 
Pandas PySpark SQL中的用户定义聚合函数
									Pandas
							 									Apache Spark
							 									Pyspark
							 
Pandas 如何从给定的数据帧创建透视表？
									Pandas
							 
Pandas 何时使用熊猫‘；loc’；用于数据帧切片
									Pandas
							 									Dataframe
							 
Pandas 熊猫将标题和货币列表移动到单独的列中
									Pandas
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Clojure
Logic
Sml
Time Complexity
Installation
Lisp
Windows 7
Phpstorm
Vaadin
Matplotlib
Concurrency
Google Maps Api 3
Leaflet
Sed
Cygwin
Sprite Kit
Command Line
Graphql
Mono
Mariadb
Windows Services
Unix
Pentaho
Unit Testing
Apache
Google App Engine
Oracle11g
If Statement
Facebook Graph Api
Magento
Ipython
Templates
Geolocation
Apache Flex
Processing
Racket
Python 3.x
Camera
Pagination
Grid
Resharper
Visual C++
Cordova
Xcode
Jestjs
Character Encoding
Stm32
Windows Mobile
Javafx 2
Ubuntu
Postman
Logstash
User Interface
Image
Snmp
Adobe
Perforce
Yii2
Parallel Processing
Install4j
D
Junit
Jqgrid
Neural Network
Regex
Entity Framework Core
Nativescript
Rdf
Isabelle
Jira
Dynamic
Google Chrome Extension
Xsd
Nest
Woocommerce
Visual Studio Code
Vhdl
Autodesk Forge
Oracle Apex
Sparql
Plot
Safari
Machine Learning
Requirejs
Cloud Foundry
Mapreduce
Editor
File
Gatsby
Jhipster
Xampp
Marklogic
C++
Go
Qt4
Julia
R
Google Colaboratory
Grafana
X86
Mdx
Hive
Orchardcms
Python Sphinx
Openssl
Mercurial
Stanford Nlp
Phpunit
Webrtc
Asp.net
Sencha Touch 2
Colors
Xpages
Database Design
Maven 2
Arrays
Jaxb
Linq
Spring Mvc
Dynamics Crm 2011
Sonarqube
Tensorflow
Titanium
Clearcase
Git
Maps
Internet Explorer
Compilation
Nlp
Vagrant
Automation
Influxdb
Jboss
Prolog
Html
Model
Swing
Pointers
Axapta
Parse Platform
Swift
Ios7
Testng
Openlayers 3
Documentation
Osgi
Grep
Sms
Azure Functions
Swift2
Numpy
Cucumber
Jwt
Air
Functional Programming
Notepad++
Sharepoint 2007
Debugging
Random
Language Agnostic
Openshift
Activerecord
Chef Infra
Swiftui
Tkinter
Web Services
Pdf
Xamarin.ios
Nsis
Bison
Opencart
Drools
Bash
Protocol Buffers
Tsql
Graphics
Tree
Sencha Touch
Rx Java
Deployment
Drupal
Jquery Mobile
Servlets
Xamarin.android
Stored Procedures
Fluent Nhibernate
Memory Leaks
Twitter Bootstrap
Amazon Redshift
Dask
Linkedin
Couchbase
Asp.net Mvc 4
Ruby
Github
Xml
Loopbackjs
Phpmyadmin
Facebook
Computer Science
Websphere


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网