Python 拆分行并计算熊猫中的新值
假设我有这个数据帧:Python 拆分行并计算熊猫中的新值,python,pandas,Python,Pandas,假设我有这个数据帧: df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"]) 看起来是这样的: name value 0 a 0 1 b,c 2 当列name中有逗号时,我想将该行拆分,并将value中的数字平均分配到新行中。因此,结果必须是: name value 0 a 0 1 b 1 2 c 1 我
df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"])
看起来是这样的:
name value
0 a 0
1 b,c 2
当列name
中有逗号时,我想将该行拆分,并将value
中的数字平均分配到新行中。因此,结果必须是:
name value
0 a 0
1 b 1
2 c 1
我怎样才能做到这一点呢?制定计划对于
pandas
和numpy
版本,这是相同的计划
- 获取列表的列表
- 找出那些列表的长度
- 将这些值除以长度,因为这样可以进行分布
- 以相同的长度重复减少的值,以抵消减少的值,使总和与之前相同
- 用新序列重建数据帧
熊猫
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
name value
0 a 0.0
1 b 1.0
2 c 1.0
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
name value
0 a 0.0
1 b 1.0
2 c 1.0
%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
1000 loops, best of 3: 843 µs per loop
%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
1000 loops, best of 3: 207 µs per loop
numpy
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
name value
0 a 0.0
1 b 1.0
2 c 1.0
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
name value
0 a 0.0
1 b 1.0
2 c 1.0
%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
1000 loops, best of 3: 843 µs per loop
%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
1000 loops, best of 3: 207 µs per loop
定时
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
name value
0 a 0.0
1 b 1.0
2 c 1.0
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
name value
0 a 0.0
1 b 1.0
2 c 1.0
%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
value=df.value.div(k).repeat(k).values,
name=lol.sum()
))
1000 loops, best of 3: 843 µs per loop
%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]
i = (df.value.values / k).repeat(k)
pd.DataFrame(
np.column_stack([np.concatenate(lol), i]),
columns=['name', 'value']
)
1000 loops, best of 3: 207 µs per loop