Python 如何基于另一个数据帧在数据帧中删除数据_Python_Pandas - Fatal编程技术网

Python 如何基于另一个数据帧在数据帧中删除数据

python pandas

Python 如何基于另一个数据帧在数据帧中删除数据,python,pandas,Python,Pandas,我有一个像这样的数据帧 user_id sku_id time 0 56804 75906 2016-02-01 00:10:48 1 56804 75906 2016-02-01 08:36:59 2 56805 75906 2016-02-01 08:36:59 3 56806 81256 2016-02-01 00:08:15 …… 然后我有另一个数据帧B，如下所示： user_id sku_id 0

我有一个像这样的数据帧

    user_id sku_id    time
0   56804   75906   2016-02-01 00:10:48
1   56804   75906   2016-02-01 08:36:59
2   56805   75906   2016-02-01 08:36:59
3   56806   81256   2016-02-01 00:08:15
……

然后我有另一个数据帧B，如下所示：

    user_id sku_id        
0   56804   75906
1   56806   81256   
……

我想在数据帧A中选择样本，但（用户id，sku id）不在数据帧B中。如何有效地进行选择？因为我的数据比较大，而且我在我的电脑里用有限的内存来做

与参数

指示器一起使用，用于过滤，然后使用以下命令删除辅助列：
另一个解决方案：
x = pd.MultiIndex.from_arrays([df1['user_id'], df1['sku_id']])
y = pd.MultiIndex.from_arrays([df2['user_id'], df2['sku_id']])
inter = x.difference(y)
df1 = df1.set_index(['user_id', 'sku_id']).loc[inter].reset_index()
print (df1)
   user_id  sku_id                 time
0    56805   75906  2016-02-01 08:36:59

有两种方法可以做到这一点：
1） 使用isin可以删除所需的列。但必须合并两列才能执行此操作：
A["id"] = str(A["user_id"])+"_"+str(A["sku_id"])
B["id"] = str(B["user_id"])+"_"+str(B["sku_id"])
l = list(B["id"])
A2 = A[~A["id"].isin(l)]

2） 在B dataframe中创建另一个字段，即1。您可以使用all条件合并两个数据帧，并删除值为1的字段
B["unique"] = 1
A2 = A.merge(B,on=["user_id","sku_id"],how="outer")
A2 = A2[A2["unique"]!=1]

让我知道这是否有帮助jez您的速度如此之快。虽然此代码可以回答问题，但提供有关此代码为什么和/或如何回答问题的其他上下文可以提高其长期价值。我建议您检查SO以及来自的全面信息。
df=df1.append(df2)

df.drop_duplicates(subset=['user_id','sku_id'],keep=False)

df=df1.append(df2)

df.drop_duplicates(subset=['user_id','sku_id'],keep=False)




[pandas]相关文章推荐



                                                        
Pandas 连接panda dataframe中字符串列和长列的值
pandasipython 
Pandas 熊猫会在只包含NaN的行上移动
pandasscikit-learn 
Pandas 如何基于另一个变量在dataframe中创建变量
pandasdataframe 
Pandas-将日期转换为日期时间格式
pandas 
Pandas 使用.loc和slice设置时，Datetime列强制为int
pandasdatetime 
为什么nunique会覆盖pandas中的分组列
pandas 
熊猫需要xlrd 1.1.0版，但样式框应具有xlrd 1.0.0版。如何正确设置，以便我同时需要styleframe和pandas？
pandas 
Pandas 在映射数据帧中的值时使用dict.get（）
pandasmapping 
Pandas dask-CSV时间序列操作
pandascsvmatplotlibanacondadask 
Pandas 是否以pa.fields列表的格式生成pyarrow架构？
pandasdask 
Pandas 从pd数据帧中提取值
pandas 
Pandas Matplotlib'；带datetime对象的axhline函数
pandasmatplotlib 
Pandas 将一个数据帧中的列值映射到另一个数据帧的索引并提取值
pandasdataframe 
Pandas illed：（我想我可以确定其他nan的位置，然后再将它们设置为nan（有更好的主意吗？）（请参见有问题的编辑）否则：是否有一种矢量化方法来实现此get_last_valid（…）？
                              A1    
pandasdataframedatedatetime 
Pandas 通过保留其他列进行分组
pandas 
Pandas 如何将csv文件加载到SparkSession中
pandaspyspark 
Pandas 按列中的每个值分组
pandas 
Pandas 高斯滚动加权
pandasnumpy 
Pandas 基于索引中整数重复集的数据帧重排序
pandassorting 
Pandas 打印多个列以创建线条打印
pandasmatplotlib 
                                       





随机文章推荐



                                                        
Ethereum 以太坊web3-运行web3 httpprovider的多个实例
ethereum 
Ethereum “在”期间获取错误；“块菌迁移”；对于testrpc上的以太坊合同
ethereum 
Ethereum 以太坊实体的划分
ethereum 
Ethereum 以太坊合同ABI的最大字符串大小
ethereum 
Ethereum 如何通过web3.js通过余额获得N以太坊的顶级客户？
ethereum 
Ethereum “如何修复”；用于天然气价格的资金不足+；价值观；？
ethereum 
Ethereum 证明交易稳健性的发生
ethereum 
Ethereum 直接读取以太坊智能合约余额以计算资产转移给用户是否安全？
ethereum 
Ethereum 比特币和以太坊块间时差
ethereum 
Ethereum 如何从Hardhat部署到以太坊mainnet？
ethereum 
Ethereum NFT和转让费
ethereum 
Ethereum I'；在查看/只读区块链函数上调用ethers web3js时，我遇到气体限制错误
ethereum 
Ethereum 为以太坊构建分散应用程序的起点/模板是什么
ethereum


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
什么是*&引用；用Python是什么意思？
									Python
							 
Python 如何通过Google App Engine bulkloader上传带有密钥名称的数据
									Python
							 									Google App Engine
							 
如何在Python/PyOpenGL中对GLfloat类型的对象进行添加？
									Python
							 									Opengl
							 									Python 3.x
							 
使用Python解析器嗅探垃圾邮件发送到标准输出的分隔符
									Python
							 									Python 2.7
							 									Pandas
							 
Python unittest动态加载测试数据
									Python
							 									Testing
							 
编织内联C++；Python 2.7中的代码
									Python
							 									C++
							 									Python 2.7
							 
Python 从HTML文件中提取信息
									Python
							 									Html
							 
Python 有选择地删除数据帧中不推荐使用的行
									Python
							 									Pandas
							 
Python 在flask sqlalchemy中使用with_entities（）返回自定义属性？
									Python
							 									Flask
							 									Sqlalchemy
							 
Python多处理随机地、静默地失败
									Python
							 									Multithreading
							 
Python Can'；t访问来自其他类的变量-tkinter
									Python
							 									Variables
							 									Python 3.x
							 									Tkinter
							 
Python 将单个模型路由到django中的备用数据库
									Python
							 									Django
							 									Database
							 									Routing
							 
Python 将两个csv行合并为一行
									Python
							 									Csv
							 									Awk
							 
Python 安装Jupyter笔记本电脑的困难
									Python
							 									Ubuntu
							 									Ipython
							 
Python scipy和matlab中的DBLQUARD给出了不同的结果
									Python
							 									Matlab
							 									Numpy
							 
Python Scipy.optimize.newton:运行时错误
									Python
							 									Optimization
							 
Python sklearn GMM分类预测（部件分配）订单
									Python
							 									Scikit Learn
							 
Python Theano符号名称用法
									Python
							 									Python 2.7
							 
Python 打印列之间的增量差异
									Python
							 									Python 3.x
							 									Pandas
							 
Python 在日历项中查找正文
									Python
							 									Calendar
							 
Python rocksdb.errors.RocksIOError:IO错误：While锁文件：sample.db/lock:Resource暂时不可用
									Python
							 									Macos
							 
用于提取java注释的python正则表达式
									Python
							 									Regex
							 
Python '；进口期货'；即使它确实已安装，也不起作用
									Python
							 									Python 2.7
							 									Parallel Processing
							 
Python 熊猫，将多行转换为多列
									Python
							 									Pandas
							 									Dataframe
							 
Python 如何根据1列中的特定值筛选熊猫中的行
									Python
							 									Pandas
							 
Python（linux）基于文本的游戏输入错误
									Python
							 									Linux
							 									Events
							 									Input
							 
Python QCore应用程序不'；不要优雅地结束
									Python
							 									Python 3.x
							 
Python 如何在IBM ILOG CPLEX CP优化器中处理大整数？
									Python
							 									Optimization
							 
Python GridsearchSV能否包括列车试验的随机分组
									Python
							 									Scikit Learn
							 
Python chat（）缺少1个必需的位置参数：'；id'；
									Python
							 									Django
							 									Python 3.x
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Drupal
Plugins
Jupyter Notebook
Qml
Doctrine
Forms
Flask
Linq To Sql
Xml
Django Models
Automation
Iis
Open Source
Ssas
Model View Controller
Docker
Reference
Perforce
Antlr
Server
Symfony1
Cluster Computing
Adobe
Sass
Heroku
Dictionary
Asp.net Core
Google App Engine
Common Lisp
Resharper
Jekyll
Sonarqube
Tridion
Windows 7
Oop
Xcode4
Time Complexity
Quickbooks
D3.js
Asp.net Mvc 4
Autocomplete
Vim
Azure Ad B2c
Oracle
Matrix
Omnet++
Osgi
Websocket
Emacs
Oracle11g
Express
Layout
Scheme
Angular Material
Jsp
Odoo
Unicode
Network Programming
Spring Integration
Transactions
Symfony
Hazelcast
Routing
Nginx
Lua
Cobol
Syntax
Playframework
Yocto
Jwt
Spring Boot
Project Management
Android Studio
Xcode
Stream
Sharepoint 2007
Inheritance
Scripting
Robotframework
Oracle10g
Google Bigquery
Twitter Bootstrap
Api
Drupal 6
Silverlight 4.0
Jvm
Rx Java
Enums
Sublimetext3
Utf 8
Sphinx
Web
Visual C++
Events
Teradata
Bash
Sip
Cryptography
Smtp
Dialogflow Es
Swagger
Typo3
Tensorflow
Netbeans
Ant
Ocaml
Hibernate
Gps
Coffeescript
Shiny
Yii
Apache Pig
Path
Responsive Design
If Statement
Redirect
List
Joomla
Class
.htaccess
Swift2
Memory Management
Fullcalendar
Ssh
Snmp
Security
Appium
Db2
Django
Calendar
Kentico
Triggers
Big O
Delphi
Dynamic
Playframework 2.0
Install4j
Winapi
Matlab
Microsoft Graph Api
Abap
Ruby On Rails
Acumatica
Polymer
Gitlab
Tsql
Ember.js
Sparql
Cloud Foundry
Graph
Firefox
Tinymce
Active Directory
Sed
Dynamics Crm
Windows Services
Notifications
Neural Network
Openlayers
Netsuite
Cron
Asp.net
Vaadin
Cypress
Java Me
Documentation
Networking
Moodle
Java 8
Razor
Jenkins
Report
Node.js
Replace
Apache Spark
Crystal Reports
Opencart
Url Rewriting
Audio
Apache Zookeeper
Jquery
Jquery Ui
Ip
Jasmine
Localization
Twitter
Embedded
Azure Data Factory
Ajax
Imagemagick
Titanium
3d
Asp.net Web Api
Atom Editor
Tomcat
Nunit
Spring
Vmware
Rss
Serial Port
Nservicebus


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网