Python 删除重复项,但保留对删除行的引用
我有一个包含许多重复行的数据帧。数据集有数百行和数百列 每行都有一个唯一的标识符。我想创建一个只有唯一行的数据框。然后我想创建一个映射,将唯一行数据帧中的标识符映射到原始数据帧的标识符 比如说Python 删除重复项,但保留对删除行的引用,python,pandas,Python,Pandas,我有一个包含许多重复行的数据帧。数据集有数百行和数百列 每行都有一个唯一的标识符。我想创建一个只有唯一行的数据框。然后我想创建一个映射,将唯一行数据帧中的标识符映射到原始数据帧的标识符 比如说 import pandas as pd # Dummy data df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3], 'col_2': [2, 4, 4, 2, 4, 2], 'col
import pandas as pd
# Dummy data
df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3],
'col_2': [2, 4, 4, 2, 4, 2],
'col_3': [3, 2, 2, 3, 2, 7]},
index=['A', 'B', 'C', 'D', 'E', 'F'])
df
Out[11]:
col_1 col_2 col_3
A 1 2 3
B 2 4 2
C 2 4 2
D 1 2 3
E 2 4 2
F 3 2 7
# Unique row dataframe
df_unique = df.drop_duplicates()
df_unique()
Out[12]:
col_1 col_2 col_3
A 1 2 3
B 2 4 2
F 3 2 7
# Mapping from df_unique to df
# Creating this mapping is the problem
mapping = {'A': ('A', 'D'),
'B': ('B', 'C', 'E'),
'F': ('F')}
在这种情况下,行“A”和“D”相等,“A”在删除重复项()之前映射到“A”和“D”
如何创建映射
这里我使用了drop\u duplicates()
来创建唯一的行数据帧。这不是一项要求。如果有人有更好的想法,映射不必是字典。首先通过DataFrame的所有列与和元组一起使用,然后创建元组字典:
mapping = (df.reset_index()
.groupby(df.columns.tolist())['index']
.agg(['first',tuple])
.set_index('first')['tuple']
.to_dict())
print (mapping)
{'A': ('A', 'D'), 'B': ('B', 'C', 'E'), 'F': ('F',)}