Python 删除重复项,但保留对删除行的引用

Python 删除重复项,但保留对删除行的引用,python,pandas,Python,Pandas,我有一个包含许多重复行的数据帧。数据集有数百行和数百列 每行都有一个唯一的标识符。我想创建一个只有唯一行的数据框。然后我想创建一个映射,将唯一行数据帧中的标识符映射到原始数据帧的标识符 比如说 import pandas as pd # Dummy data df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3], 'col_2': [2, 4, 4, 2, 4, 2], 'col

我有一个包含许多重复行的数据帧。数据集有数百行和数百列

每行都有一个唯一的标识符。我想创建一个只有唯一行的数据框。然后我想创建一个映射,将唯一行数据帧中的标识符映射到原始数据帧的标识符

比如说

import pandas as pd

# Dummy data
df = pd.DataFrame({'col_1': [1, 2, 2, 1, 2, 3],
                   'col_2': [2, 4, 4, 2, 4, 2],
                   'col_3': [3, 2, 2, 3, 2, 7]},
                  index=['A', 'B', 'C', 'D', 'E', 'F'])

df
Out[11]: 
   col_1  col_2  col_3
A      1      2      3
B      2      4      2
C      2      4      2
D      1      2      3
E      2      4      2
F      3      2      7

# Unique row dataframe
df_unique = df.drop_duplicates()
df_unique()
Out[12]: 
   col_1  col_2  col_3
A      1      2      3
B      2      4      2
F      3      2      7

# Mapping from df_unique to df
# Creating this mapping is the problem
mapping = {'A': ('A', 'D'),
           'B': ('B', 'C', 'E'),
           'F': ('F')}
在这种情况下,行“A”和“D”相等,“A”在
删除重复项()之前映射到“A”和“D”

如何创建
映射

这里我使用了
drop\u duplicates()
来创建唯一的行数据帧。这不是一项要求。如果有人有更好的想法,映射不必是字典。

首先通过DataFrame的所有列与
元组一起使用,然后创建元组字典:

mapping = (df.reset_index()
             .groupby(df.columns.tolist())['index']
             .agg(['first',tuple])
             .set_index('first')['tuple']
             .to_dict())
print (mapping)
{'A': ('A', 'D'), 'B': ('B', 'C', 'E'), 'F': ('F',)}