Python 优化内存分配/寻找更高效的内存分配方式
我希望在改进连接方面得到帮助,该连接将接收越来越大的数据。我们有两个数据集temp1:Python 优化内存分配/寻找更高效的内存分配方式,python,pandas,optimization,Python,Pandas,Optimization,我希望在改进连接方面得到帮助,该连接将接收越来越大的数据。我们有两个数据集temp1: Muid advertiserid content 1 100 1 1 100 2 1 100 56 1 101 1 1 101 34 and temp2 as: Muid advertiserid content approved 1 100
Muid advertiserid content
1 100 1
1 100 2
1 100 56
1 101 1
1 101 34
and temp2 as:
Muid advertiserid content approved
1 100 1 1
1 101 1 0
1 100 56 0
1 200 1 1
1 100 2 1
目标是根据muid内容和广告客户ID的链接,将表1的用户填充为已批准或未批准的用户。
现在,我将这两个数据帧合并为:
recos=pd.merge(temp1,temp2,how='left',left_on=['muid','content','advertiserid'],right_on=['muid','content','advertiserid'])
早些时候,这个连接执行得很好,但随着输入的大小(尤其是temp1)的增长,当前有数百万行,这给了我执行时的内存错误
有人能给我一个更好的方法来完成这项任务吗