Python:基于其他列添加列

Python:基于其他列添加列,python,pandas,Python,Pandas,我对熊猫很陌生,对它很困惑,尤其是与列表和使用列表理解相比 我有一个4列的数据框。我想在第4列“m”的基础上创建第5列“c”。我可以通过对“m”列中的每一行应用我的函数来获得“c”的值 如果“m”是一个列表,并且使用列表理解,那么它就是 c = [myfunction(x) for x in m] 如何将此“逻辑”应用于数据帧?因为pandas位于numpy的顶部。您可以轻松地将函数应用于numpy.array。下面的例子可能会有所帮助。您可以将列表(或列)传输到numpy.array,然后执

我对熊猫很陌生,对它很困惑,尤其是与列表和使用列表理解相比

我有一个4列的数据框。我想在第4列“m”的基础上创建第5列“c”。我可以通过对“m”列中的每一行应用我的函数来获得“c”的值

如果“m”是一个列表,并且使用列表理解,那么它就是

c = [myfunction(x) for x in m]

如何将此“逻辑”应用于数据帧?

因为pandas位于numpy的顶部。您可以轻松地将函数应用于numpy.array。下面的例子可能会有所帮助。您可以将列表(或列)传输到numpy.array,然后执行向量计算

import numpy as np
import pandas as pd
data = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
def square(x):
    return x ** 2
data['c'] = square(np.array(data.a))
您可以从
doc
中选择样本:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': range(1, 11), 'B': np.random.randn(10)})
print df
    A         B
0   1  0.769028
1   2 -0.392471
2   3  0.153051
3   4 -0.379848
4   5 -0.665426
5   6  0.880684
6   7  1.126381
7   8 -0.559828
8   9  0.862935
9  10 -0.909402

df = df.assign(ln_A = lambda x: np.log(x.A))
print df
    A         B      ln_A
0   1  0.769028  0.000000
1   2 -0.392471  0.693147
2   3  0.153051  1.098612
3   4 -0.379848  1.386294
4   5 -0.665426  1.609438
5   6  0.880684  1.791759
6   7  1.126381  1.945910
7   8 -0.559828  2.079442
8   9  0.862935  2.197225
9  10 -0.909402  2.302585
或者如评论所说

有时
lambda
函数很有用:

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': range(1, 11), 'B': np.random.randn(10)})

df['ln_A'] = df['A'].apply(np.log)
df['round'] = df['B'].apply(lambda x: np.round(x, 2))
print df

    A         B      ln_A  round
0   1 -0.982828  0.000000  -0.98
1   2  2.306111  0.693147   2.31
2   3  0.967858  1.098612   0.97
3   4 -0.286280  1.386294  -0.29
4   5 -2.026937  1.609438  -2.03
5   6  0.061735  1.791759   0.06
6   7 -0.506620  1.945910  -0.51
7   8 -0.309438  2.079442  -0.31
8   9 -1.261842  2.197225  -1.26
9  10  1.079921  2.302585   1.08

下面类似于一般列表理解案例

def some_fn(x):
    # return some_other_fn(x.Colname1, x.Colname2, ...)
    return x.a + x.b

df = pd.DataFrame({'a' : [1, 2], 'b' : [3, 4]})
df['c'] = [some_fn(row) for ind, row in df.iterrows()]

尝试以下方法:df['c']=df['m'].apply(myfunction)如果您实际需要将函数分别应用于每一行,那么它将是
df['c']=df['m'].map(myfunction)
。但这通常不是最好的方法,因为它没有利用pandas的矢量化操作,在矢量化操作中,许多操作可以很快应用于整个列。如果你能在帖子中加入更多细节,人们会让你知道实现这一点的最佳方法。@Marius你如何实现内置的矢量化熊猫行为?@jezrael的numpy数组操作不是比应用更快吗?@Mike Palmice我同意,评论被删除。