Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用agg&;将一列分组;连接,但仅限于唯一值_Python_Pandas_Pandas Groupby - Fatal编程技术网

Python 使用agg&;将一列分组;连接,但仅限于唯一值

Python 使用agg&;将一列分组;连接,但仅限于唯一值,python,pandas,pandas-groupby,Python,Pandas,Pandas Groupby,我在下面的数据集上使用了这段狡猾的代码 df = pd.DataFrame({ 'contact_email': ['info@info.com', 'info@info.com', 'info@info.com'], 'interest': ['Math', 'Science', 'Science'] }) print(df) interest contact_email 0 Math info@info.com 1 Science in

我在下面的数据集上使用了这段狡猾的代码

    df = pd.DataFrame({
    'contact_email': ['info@info.com', 'info@info.com', 'info@info.com'], 
    'interest': ['Math', 'Science', 'Science']
})
    print(df)
    interest contact_email
0   Math    info@info.com
1   Science info@info.com
2   Science info@info.com

df = df.groupby('Contact_Email').agg({'interest' : ' '.join}).reset_index()
print(df)

        contact_email   AOI
0   info@info.com   Math Science Science
这是如此接近我想要的,但我只需要返回独特的兴趣。(我让用户/客户输入相同的表单,使用相同的值将近10次!)

另外,作为一个好东西,任何人都知道如何删除0,1,2,3索引

谢谢

用于删除重复项:

df = (df.groupby('contact_email')
        .agg({'interest' : lambda x: ' '.join(x.unique())})
        .reset_index())
print(df)
   contact_email      interest
0  info@info.com  Math Science
set
s,但应更改值的顺序:

df = df.groupby('contact_email').agg({'interest' : lambda x: ' '.join(set(x))}).reset_index()
print(df)
   contact_email      interest
0  info@info.com  Math Science
或:


由于您只有一个功能,因此可以使用
groupby
+
apply
和使用
set

res = df.groupby('contact_email')['interest']\
        .apply(set).apply(' '.join)\
        .reset_index()

print(res)

   contact_email      interest
0  info@info.com  Math Science

@数据新手-欢迎您!但如果需要最佳性能,我想最后一个解决方案应该是最快的(取决于数据),我只有3000条记录,每月只有4-8k用户进入我们的表单,所以这是完美的:)
res = df.groupby('contact_email')['interest']\
        .apply(set).apply(' '.join)\
        .reset_index()

print(res)

   contact_email      interest
0  info@info.com  Math Science