Python-成对计数项

Python-成对计数项,python,pandas,Python,Pandas,你好^^我在这方面工作了2天,找不到解决办法 在kaggle.com上有一个巴西电子商务公共数据集,它是Olist商店订单的数据集。转到以下链接并下载数据集。请注意,数据被分发到多个csv文件。使用此数据集执行以下分析 在这里,我们将发现城市之间的经济互动。我们将查找城市之间的订单总数。也就是说,圣保罗和里约热内卢之间的经济互动是圣保罗作为客户城市,里约热内卢作为卖方城市,圣保罗作为卖方城市,里约热内卢作为客户城市的订单数量之和。计算每个城市对的经济互动后,返回总订单数量方面互动最高的前10个城

你好^^我在这方面工作了2天,找不到解决办法

在kaggle.com上有一个巴西电子商务公共数据集,它是Olist商店订单的数据集。转到以下链接并下载数据集。请注意,数据被分发到多个csv文件。使用此数据集执行以下分析

在这里,我们将发现城市之间的经济互动。我们将查找城市之间的订单总数。也就是说,圣保罗和里约热内卢之间的经济互动是圣保罗作为客户城市,里约热内卢作为卖方城市,圣保罗作为卖方城市,里约热内卢作为客户城市的订单数量之和。计算每个城市对的经济互动后,返回总订单数量方面互动最高的前10个城市

解决方案中的函数应将数据集的文件夹作为输入。提示:合并文件时,可以使用以下顺序:

data=pd.mergepd.mergepd.mergepd.mergepd.mergeorder\u项目、产品、产品翻译或订单、卖家、客户

我尝试使用Groupby函数作为-

data.groupby(['seller_city','customer_city'],as_index = False).count().reset_index('Count')
Tl;博士 正如您在下面看到的,有两列名为col1和col2。有一些从col1到col2的事务。我要清点每笔交易。我

但它给了我一个错误的输出

输入:

b = pd.DataFrame({'col1':['a','a','b','b','c','d'], 'col2':['b','b','a','a','d','c']})
输出应为:

pd.DataFrame({'a-b':[2],'b-a':[2],'c-d':[1],'d-c':[1] })
试试这个:

b['col3'] = (b['col1'] + '-' + b['col2'])
print(b.groupby('col3').size())
输出:

a-b    2
b-a    2
c-d    1
d-c    1
            seller_city         customer_city
0         volta redonda  sao jose dos pinhais
1         volta redonda  sao jose dos pinhais
2  sao jose dos pinhais         volta redonda
sao jose dos pinhais-volta redonda    1
volta redonda-sao jose dos pinhais    2
编辑1

根据您在评论中输入的数据,这里是我制作的df和结果

代码:

输出:

a-b    2
b-a    2
c-d    1
d-c    1
            seller_city         customer_city
0         volta redonda  sao jose dos pinhais
1         volta redonda  sao jose dos pinhais
2  sao jose dos pinhais         volta redonda
sao jose dos pinhais-volta redonda    1
volta redonda-sao jose dos pinhais    2
代码:

输出:

a-b    2
b-a    2
c-d    1
d-c    1
            seller_city         customer_city
0         volta redonda  sao jose dos pinhais
1         volta redonda  sao jose dos pinhais
2  sao jose dos pinhais         volta redonda
sao jose dos pinhais-volta redonda    1
volta redonda-sao jose dos pinhais    2

它给你的输出是什么?也可以考虑对问题进行配对。我们不想通读你的全部家庭作业是的,很抱歉我忘了上传我的代码输出和答案。。。。我试过了,但输出不正确。我将答案和代码的输出上传到注释中。我开始认为答案是错误的。我想这就是你在问题中的预期结果。你面临的问题是什么?你能把你的数据框和你期望的结果的摘要贴出来吗?不要发布图片,我们很难重现问题?数据框包括->订单id、订单项目id、产品id、卖家id发货限制日期、价格、运费价值、产品类别名称、产品名称长度、产品描述长度、产品照片数量、产品重量、产品长度、产品高度、产品宽度、,产品类别名称英文客户id、订单状态、订单购买时间戳订单批准日期、订单交付日期、订单交付日期、客户日期、订单预计交付日期、卖方邮政编码前缀卖方城市、卖方州、客户唯一id、客户邮政编码前缀客户城市、,顾客陈述,我要两两计算卖家城市和顾客城市。我尝试使用data.groupby['seller\u city','customer\u city',as\u indexfalse.count.reset\u index'count'你尝试过这个吗?df.groupbydf['seller\u city']+'-'+df['customer\u city'].大小