Python 基于两列删除重复的行_Python_Pandas

Python 基于两列删除重复的行

python pandas

Python 基于两列删除重复的行,python,pandas,Python,Pandas,我有一个数据框，其中包含根据四列（SFDC_ID和左侧、右侧和右侧）重复的值：目前SFDC_ID和Right_SFDC_ID正在以以下方式复制： SFDC_ID left_side right_SFDC_ID right_side similairity 0013s00000vEVuwAAG Hague Quality Water 0013s00000vEW72AAG Hague Quality Waters 0.99023304 0013s00000vEW72AAG

我有一个数据框，其中包含根据四列（SFDC_ID和左侧、右侧和右侧）重复的值：

目前SFDC_ID和Right_SFDC_ID正在以以下方式复制：

SFDC_ID left_side   right_SFDC_ID   right_side  similairity

0013s00000vEVuwAAG  Hague Quality Water 0013s00000vEW72AAG  Hague Quality Waters    0.99023304
0013s00000vEW72AAG  Hague Quality Waters    0013s00000vEVuwAAG  Hague Quality Water 0.99023304

如果仔细观察，第1行的SFDC_ID与第2行的右SFDC_ID相同

如何使用pandas删除第二行？

这里有一种方法：

# compares which is greater based on alphabetical order and makes a bool series
mask = df['SFDC_ID'] < df['right_SFDC_ID'] 

# creates a new column checking True vs False, 

#if mask is true item in df['SFDC_ID'] is selected else item in df['right_SFDC_ID'] is selected

df['col1'] = df['SFDC_ID'].where(mask, df['right_SFDC_ID'])

#same as above but a column for df['right_SFDC_ID']
df['col2'] = df['right_SFDC_ID'].where(mask, df['SFDC_ID'])

# checks for duplicates in `col1` and `col2` and removes last duplicate
df = df.drop_duplicates(subset=['col1', 'col2'])

#根据字母顺序比较哪个更大，并生成布尔序列
掩码=df['SFDC\u ID']

这里有一种方法：
# compares which is greater based on alphabetical order and makes a bool series
mask = df['SFDC_ID'] < df['right_SFDC_ID'] 

# creates a new column checking True vs False, 

#if mask is true item in df['SFDC_ID'] is selected else item in df['right_SFDC_ID'] is selected

df['col1'] = df['SFDC_ID'].where(mask, df['right_SFDC_ID'])

#same as above but a column for df['right_SFDC_ID']
df['col2'] = df['right_SFDC_ID'].where(mask, df['SFDC_ID'])

# checks for duplicates in `col1` and `col2` and removes last duplicate
df = df.drop_duplicates(subset=['col1', 'col2'])

#根据字母顺序比较哪个更大，并生成布尔序列
掩码=df['SFDC\u ID']
您可以在行上迭代，并在前一行值匹配的位置删除行
for index,row in df[1::].iterrows():
    prev_SFDC_ID = df.iloc[index-1]['SFDC_ID'] #get prev SFDC_ID value
    if row['right_SFDC_ID'] == prev_SFDC_ID: 
        df.drop(index=index, inplace=True)

您可以在行上迭代，并在前一行值匹配的位置删除行
for index,row in df[1::].iterrows():
    prev_SFDC_ID = df.iloc[index-1]['SFDC_ID'] #get prev SFDC_ID value
    if row['right_SFDC_ID'] == prev_SFDC_ID: 
        df.drop(index=index, inplace=True)

我建议您将您的数据格式设置得更好一些，因为目前无法判断Haque quality waters是单独一列还是与0013组合…在Stackoverflow中设置得更好？我相信我更新了这个，我建议你把你的数据格式化得更好一些，因为目前还不知道Haque quality waters是一个单独的列，还是与0013相结合……在Stackoverflow中格式化得更好？我相信我更新了这个，你能解释一下它到底是做什么的吗？matches_df['SFDC_ID']


[pandas]相关文章推荐



                                                        
Pandas 数据帧插入计算行
pandas 
Pandas 设置groupby.get\u组获取的切片上的CopyWarning
pandas 
Pandas dataframe-删除所有值都满足条件的列
pandas 
Pandas 我想筛选列中特定名称的列，并删除这些名称
pandasdataframe 
Pandas 将多索引数据帧的顺序与另一个多索引df、df的顺序对齐
pandas 
Pandas 熊猫替换。应用（lambda x：使用快速解决方案，例如使用numpy阵列
pandaslambda 
Pandas 需要提取数据框中括号内的所有内容
pandasdataframe 
Pandas python数据帧只保留0-9、a-b和空格
pandastext 
Pandas 表-添加总计和变更单
pandas 
Pandas 如何使用命令行参数读取多个文件并保存单个输出
pandas 
Pandas 将多个列表转换为一个数据帧
pandaslist 
Pandas 提取过滤两个以上条件的行
pandas 
Pandas 数据帧不'；当小时和分钟为零时，是否显示时间？
pandasdataframedatetime 
Pandas 使用Seaborn FaceGrid格式化日期标签
pandas 
Pandas 展平并重命名多索引agg列
pandas 
Pandas 在np.nan的熊猫中，为什么是；mul（）；不等于__mul_uquo；？
pandas 
Pandas 拆分并连接数据帧
pandas 
Pandas 基于条件的列合并
pandas 
Pandas 使用堆栈/取消堆栈重塑数据帧
pandasdataframe 
Pandas int32和int64之间有什么区别
pandas 
                                       





随机文章推荐



                                                        
Events 放大/缩小视图
eventsuiview 
Events IObservable与普通事件，或者我为什么要使用IObservable？
eventsdesign-patterns.net-4.0 
Events 信号和插槽与事件和事件侦听器
eventsdesign-patterns 
Events 有人能解释为什么事件类型是seam中的任意字符串吗？
events 
Events Chrome输入[类型=编号]和onchange
eventsweb-applicationsgoogle-chromeinput 
Events 在windows phone中调度事件
eventswindows-phone-7 
Events socket.io-捕获所有事件
eventsnode.jssocket.io 
Events 重写Liferay启动事件
eventsliferay 
Events 获取WinEvent开始和结束日期而不是筛选记录
eventsdatepowershell 
Events Eventhandler被多次激发
eventsbrowser 
Events Backbone.js视图img onload
eventsbackbone.jsimage 
Events tcl/tk观察剪贴板
eventsasynchronoustcl 
Events ZF2：将事件附加到另一个控制器'；s操作并获取服务定位器
eventszend-framework2 
Events OpenModelica内部错误reinit调用时使用了错误的参数？
eventsmodelica 
Events 事件引发时的文本字段位置
eventstextwindows-phone-8 
Events 日志存储：在筛选器中创建新事件
eventslogstash 
Events VBScript：如何编写事件驱动脚本来检查网络电缆是否已拔出？
eventsvbscript 
Events VB6自定义OCX与另一个OCX事件/方法集成
eventsmethodsvb6 
Events 在没有窗口焦点的情况下处理SDL_键盘事件
eventsinputkeyboard 
Events 接收消息时是否应手动设置用户会话？
eventspermissions