Python 使用agg&；将一列分组；连接，但仅限于唯一值_Python_Pandas_Pandas Groupby

Python 使用agg&；将一列分组；连接，但仅限于唯一值

python pandas

Python 使用agg&；将一列分组；连接，但仅限于唯一值,python,pandas,pandas-groupby,Python,Pandas,Pandas Groupby,我在下面的数据集上使用了这段狡猾的代码 df = pd.DataFrame({ 'contact_email': ['info@info.com', 'info@info.com', 'info@info.com'], 'interest': ['Math', 'Science', 'Science'] }) print(df) interest contact_email 0 Math info@info.com 1 Science in

我在下面的数据集上使用了这段狡猾的代码

    df = pd.DataFrame({
    'contact_email': ['info@info.com', 'info@info.com', 'info@info.com'], 
    'interest': ['Math', 'Science', 'Science']
})
    print(df)
    interest contact_email
0   Math    info@info.com
1   Science info@info.com
2   Science info@info.com

df = df.groupby('Contact_Email').agg({'interest' : ' '.join}).reset_index()
print(df)

        contact_email   AOI
0   info@info.com   Math Science Science

这是如此接近我想要的，但我只需要返回独特的兴趣。（我让用户/客户输入相同的表单，使用相同的值将近10次！）

另外，作为一个好东西，任何人都知道如何删除0,1,2,3索引

谢谢

用于删除重复项：

df = (df.groupby('contact_email')
        .agg({'interest' : lambda x: ' '.join(x.unique())})
        .reset_index())
print(df)
   contact_email      interest
0  info@info.com  Math Science

或

set

s，但应更改值的顺序：

df = df.groupby('contact_email').agg({'interest' : lambda x: ' '.join(set(x))}).reset_index()
print(df)
   contact_email      interest
0  info@info.com  Math Science

或：

由于您只有一个功能，因此可以使用

groupby

apply

和使用

set

：

res = df.groupby('contact_email')['interest']\
        .apply(set).apply(' '.join)\
        .reset_index()

print(res)

   contact_email      interest
0  info@info.com  Math Science

@数据新手-欢迎您！但如果需要最佳性能，我想最后一个解决方案应该是最快的（取决于数据），我只有3000条记录，每月只有4-8k用户进入我们的表单，所以这是完美的：）

res = df.groupby('contact_email')['interest']\
        .apply(set).apply(' '.join)\
        .reset_index()

print(res)

   contact_email      interest
0  info@info.com  Math Science