Python 在pandas中加入5.rpt文件
我是数据科学的新手,正在做我的第一个项目。我有5个文件,大约6GB的数据,我正在对数据进行左外连接,我看到大约1680GB的数据正在生成 我想我的连接和熊猫出了点问题Python 在pandas中加入5.rpt文件,python,pandas,left-join,Python,Pandas,Left Join,我是数据科学的新手,正在做我的第一个项目。我有5个文件,大约6GB的数据,我正在对数据进行左外连接,我看到大约1680GB的数据正在生成 我想我的连接和熊猫出了点问题 ``` import pandas as pd import numpy as np a = pd.read_table("a.rpt") b = pd.read_table("b.rpt") c = pd.read_table("c.rpt") d = pd.r
```
import pandas as pd
import numpy as np
a = pd.read_table("a.rpt")
b = pd.read_table("b.rpt")
c = pd.read_table("c.rpt")
d = pd.read_table("d.rpt")
e = pd.read_table("e.rpt")
import os
folderPath = r'/Users/sahithi/Desktop/data'
if not os.path.exists(folderPath):
os.makedirs(folderPath)
uniqueIds=b.WEIGHT.unique()
for id in uniqueIds:
Record = b.loc[dx['WEIGHT'] == id]
path = folderPath+"/"+str(id)+".csv"
Record.to_csv(path)
mc = pd.merge(Record, c, on = 'NAME', how='left')
ma = pd.merge(mc, a, on = 'NAME', how='left')
md = pd.merge(ma, d, on = 'NAME', how='left')
me = pd.merge(md, e, on = 'NAME', how='left')
me.to_csv(path)
```
跨文件的
NAME
上可能存在重复行,这可能导致加入后的大小增加。跨文件的NAME
上可能存在重复行,这可能导致加入后的大小增加。