Python 2.7 多层次concat/组/分块
我正在尝试使用分块对大型数据集进行分组 工作原理:Python 2.7 多层次concat/组/分块,python-2.7,pandas,concatenation,grouping,chunking,Python 2.7,Pandas,Concatenation,Grouping,Chunking,我正在尝试使用分块对大型数据集进行分组 工作原理: chunks = pd.read_stata('data.dta', chunksize = 50000, columns = ['year', 'race', 'app']) pieces = [chunk.groupby(['race'])['app'].agg(['sum']) for chunk in chunks] agg = pd.concat(pieces.groupby(level = 0).sum() 什么不起作用(错误:分
chunks = pd.read_stata('data.dta', chunksize = 50000, columns = ['year', 'race', 'app'])
pieces = [chunk.groupby(['race'])['app'].agg(['sum']) for chunk in chunks]
agg = pd.concat(pieces.groupby(level = 0).sum()
什么不起作用(错误:分类对象没有属性标志
)
关于我在加入year
时遗漏了什么的想法
件
:
2013 Asian 9325
Black 2655
AmInd 118
Hisp 6371
White 16825
Other 2446
Unknown 3502
Foreign 7280
Name: app, dtype: float64, year race
2013 Asian 8884
Black 2969
AmInd 72
Hisp 3760
White 18926
Other 1843
Unknown 3262
Foreign 8183
Name: app, dtype: float64, year race
2013 Asian 6429
Black 2176
AmInd 89
Hisp 3804
White 13903
Other 1752
Unknown 2760
Foreign 6825
2014 Asian 1522
Black 738
AmInd 23
Hisp 1133
White 4243
Other 437
Unknown 316
Foreign 1997
Name: app, dtype: float64, year race
最后一行至少有两个明显的打字错误。哪一行产生了错误?@JohnE-ah对此表示抱歉。生成错误的是
agg
行。我将添加一个例子,说明片段
看起来像什么,很抱歉-我只需对chunk in chunk执行df=pd.DataFrame():df=df.append(chunk)
,然后使用
2013 Asian 9325
Black 2655
AmInd 118
Hisp 6371
White 16825
Other 2446
Unknown 3502
Foreign 7280
Name: app, dtype: float64, year race
2013 Asian 8884
Black 2969
AmInd 72
Hisp 3760
White 18926
Other 1843
Unknown 3262
Foreign 8183
Name: app, dtype: float64, year race
2013 Asian 6429
Black 2176
AmInd 89
Hisp 3804
White 13903
Other 1752
Unknown 2760
Foreign 6825
2014 Asian 1522
Black 738
AmInd 23
Hisp 1133
White 4243
Other 437
Unknown 316
Foreign 1997
Name: app, dtype: float64, year race