Python 拆分行并计算熊猫中的新值_Python_Pandas

Python 拆分行并计算熊猫中的新值

python pandas

Python 拆分行并计算熊猫中的新值,python,pandas,Python,Pandas,假设我有这个数据帧： df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"]) 看起来是这样的： name value 0 a 0 1 b,c 2 当列name中有逗号时，我想将该行拆分，并将value中的数字平均分配到新行中。因此，结果必须是： name value 0 a 0 1 b 1 2 c 1 我

假设我有这个数据帧：

df = pd.DataFrame([["a", 0], ["b,c", 2]], columns = ["name", "value"])

看起来是这样的：

   name  value
0     a      0
1   b,c      2

当列

name

中有逗号时，我想将该行拆分，并将

value

中的数字平均分配到新行中。因此，结果必须是：

   name  value
0     a      0
1     b      1
2     c      1

我怎样才能做到这一点呢？

制定计划
对于

pandas

和

numpy

版本，这是相同的计划

获取列表的列表
找出那些列表的长度
将这些值除以长度，因为这样可以进行分布
以相同的长度重复减少的值，以抵消减少的值，使总和与之前相同
用新序列重建数据帧

熊猫

lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

  name value
0    a   0.0
1    b   1.0
2    c   1.0

lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

  name value
0    a   0.0
1    b   1.0
2    c   1.0

%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

1000 loops, best of 3: 843 µs per loop


%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

1000 loops, best of 3: 207 µs per loop

numpy

lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

  name value
0    a   0.0
1    b   1.0
2    c   1.0

lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

  name value
0    a   0.0
1    b   1.0
2    c   1.0

%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

1000 loops, best of 3: 843 µs per loop


%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

1000 loops, best of 3: 207 µs per loop

定时

lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

  name value
0    a   0.0
1    b   1.0
2    c   1.0

lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

  name value
0    a   0.0
1    b   1.0
2    c   1.0

%%timeit
lol = df.name.str.split(',')
k = lol.str.len()
pd.DataFrame(dict(
        value=df.value.div(k).repeat(k).values,
        name=lol.sum()
    ))

1000 loops, best of 3: 843 µs per loop


%%timeit
lol = np.core.defchararray.split(df.name.values.astype(str), ',')
k = [len(l) for l in lol]

i = (df.value.values / k).repeat(k)

pd.DataFrame(
    np.column_stack([np.concatenate(lol), i]),
    columns=['name', 'value']
)

1000 loops, best of 3: 207 µs per loop