Python 从Pandas DataFrame创建嵌套JSON,将分组行作为嵌套中的属性
我正在寻找一种解决方案来构建嵌套的dict/JSON,其中最后三列name、color、amount作为产品列表中的属性。cat1-cat3列中的值应为键 提供的数据帧如下所示:Python 从Pandas DataFrame创建嵌套JSON,将分组行作为嵌套中的属性,python,pandas,dataframe,Python,Pandas,Dataframe,我正在寻找一种解决方案来构建嵌套的dict/JSON,其中最后三列name、color、amount作为产品列表中的属性。cat1-cat3列中的值应为键 提供的数据帧如下所示: import pandas as pd df = pd.DataFrame({ 'cat1': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'C'], 'cat2': ['BB', 'BB', 'BC', 'BB', 'BB', 'BB', 'BC', 'BC'],
import pandas as pd
df = pd.DataFrame({
'cat1': ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'C'],
'cat2': ['BB', 'BB', 'BC', 'BB', 'BB', 'BB', 'BC', 'BC'],
'cat3': ['CC', 'CC', 'CD', 'CD', 'CD', 'CC', 'CD', 'CE'],
'name': ['P1', 'P2', 'P3', 'P1', 'P4', 'P1', 'P3','P6'],
'color': ['red', 'blue', 'green', 'green', 'yellow', 'red', 'blue', 'blue']
'amount': [132, 51, 12, 421, 55, 11, 123, 312]
})
这将是所需的输出:
{
"A":{
"BB":{
"CC":{
"products":[
{
"name":"P1",
"color":"red",
"amount":132
},
{
"name":"P2",
"color":"blue",
"amount":51
}
]
}
},
"BC":{
"CD":{
"products":[
{
"name":"P3",
"color":"green",
"amount":12
}
]
}
}
},
"B":{
"BB":{
"CD":{
"products":[
{
"name":"P1",
"color":"green",
"amount":421
},
{
"name":"P4",
"color":"yellow",
"amount":55
}
]
}
}
},
"C":{
"BB":{
"CC":{
"products":[
{
"name":"P1",
"color":"red",
"amount":11
}
]
}
},
"BC":{
"CD":{
"products":[
{
"name":"P3",
"color":"blue",
"amount":123
}
]
},
"CE":{
"products":[
{
"name":"P6",
"color":"blue",
"amount":312
}
]
}
}
}
}
@BEN_YO为这个问题提供了一个解决方案,没有内部产品部分
因此,我实际上是在寻找一个内部列表来适应这种方法:
def recur_dictify(frame):
if len(frame.columns) == 1:
if frame.values.size == 1: return frame.values[0][0]
return frame.values.squeeze()
grouped = frame.groupby(frame.columns[0])
d = {k: recur_dictify(g.iloc[:,1:]) for k,g in grouped}
return d
recur_dictify(df)
如果另一种方法是好的,你可以尝试下面的,这是一个有点脏,虽然你可以尝试优化它
cols = ['name','color','amount']
u = df[df.columns.difference(cols)].join(df[cols].agg(dict,1).rename('d'))
v = (u.groupby(['cat1','cat2','cat3'])['d'].agg(list).reset_index("cat3"))
v = v.groupby(v.index).apply(lambda x: dict(zip(x['cat3'],x['d'])))
v.index = pd.MultiIndex.from_tuples(v.index,names=['cat1','cat2'])
d = v.unstack(0).to_dict()
如果另一种方法是好的,你可以尝试下面的,这是一个有点脏,虽然你可以尝试优化它
cols = ['name','color','amount']
u = df[df.columns.difference(cols)].join(df[cols].agg(dict,1).rename('d'))
v = (u.groupby(['cat1','cat2','cat3'])['d'].agg(list).reset_index("cat3"))
v = v.groupby(v.index).apply(lambda x: dict(zip(x['cat3'],x['d'])))
v.index = pd.MultiIndex.from_tuples(v.index,names=['cat1','cat2'])
d = v.unstack(0).to_dict()
我们可以根据cat1、cat2和cat3进行分组,并根据分组的类别递归构建字典:
def set_val(d, k, v):
if len(k) == 1:
d[k[0]] = v
else:
d[k[0]] = set_val(d.get(k[0], {}), k[1:], v)
return d
dct = {}
for k, g in df.groupby(['cat1', 'cat2', 'cat3']):
set_val(dct, k, {'products': g[['name', 'color', 'amount']].to_dict('r')})
我们可以根据cat1、cat2和cat3进行分组,并根据分组的类别递归构建字典:
def set_val(d, k, v):
if len(k) == 1:
d[k[0]] = v
else:
d[k[0]] = set_val(d.get(k[0], {}), k[1:], v)
return d
dct = {}
for k, g in df.groupby(['cat1', 'cat2', 'cat3']):
set_val(dct, k, {'products': g[['name', 'color', 'amount']].to_dict('r')})
这是一种通用方法,适用于
这是一种通用方法,适用于
漂亮的抽象:漂亮的抽象:
def gen_nested_dict(dataframe, group, inner_key, inner_dict):
def set_val(d, k2, v):
if len(k2) == 1:
d[k2[0]] = v
else:
d[k2[0]] = set_val(d.get(k2[0], {}), k2[1:], v)
return d
dct = {}
for k, g in dataframe.groupby(group):
set_val(dct, k, {inner_key: g[inner_dict].to_dict('records')})
return dct
mydct = gen_nested_dict(df, ['cat1', 'cat2', 'cat3'], 'products', ['name', 'color', 'amount'])