Python 从函数向Dataframe添加多列_Python_Pandas

Python 从函数向Dataframe添加多列

python pandas

Python 从函数向Dataframe添加多列,python,pandas,Python,Pandas,我有一个pandas数据框mydf，它有两列，两列都是日期时间数据类型：mydate和mytime。我想再添加三列：hour、weekday和weeknum def getH(t): #gives the hour return t.hour def getW(d): #gives the week number return d.isocalendar()[1] def getD(d): #gives the weekday return d.weekday() #

我有一个pandas数据框

mydf

，它有两列，两列都是日期时间数据类型：

mydate

和

mytime

。我想再添加三列：

hour

、

weekday

和

weeknum

def getH(t): #gives the hour
    return t.hour
def getW(d): #gives the week number
    return d.isocalendar()[1] 
def getD(d): #gives the weekday
    return d.weekday() # 0 for Monday, 6 for Sunday

mydf["hour"] = mydf.apply(lambda row:getH(row["mytime"]), axis=1)
mydf["weekday"] = mydf.apply(lambda row:getD(row["mydate"]), axis=1)
mydf["weeknum"] = mydf.apply(lambda row:getW(row["mydate"]), axis=1)

代码段可以工作，但计算效率不高，因为它至少在数据帧中循环了三次。我只是想知道是否有一个更快和/或更优化的方法来做到这一点。例如，使用

zip

或

merge

？例如，如果我只创建一个返回三个元素的函数，我应该如何实现它？举例来说，该功能将是：

def getHWd(d,t):
    return t.hour, d.isocalendar()[1], d.weekday()

下面是使用一个

apply

比如说，

df

就像

In [64]: df
Out[64]:
       mydate     mytime
0  2011-01-01 2011-11-14
1  2011-01-02 2011-11-15
2  2011-01-03 2011-11-16
3  2011-01-04 2011-11-17
4  2011-01-05 2011-11-18
5  2011-01-06 2011-11-19
6  2011-01-07 2011-11-20
7  2011-01-08 2011-11-21
8  2011-01-09 2011-11-22
9  2011-01-10 2011-11-23
10 2011-01-11 2011-11-24
11 2011-01-12 2011-11-25

我们将使用lambda函数来分隔行，以确保可读性，并将其定义为

In [65]: lambdafunc = lambda x: pd.Series([x['mytime'].hour,
                                           x['mydate'].isocalendar()[1],
                                           x['mydate'].weekday()])

并且，

应用

并将结果存储到

df[['hour'，weekday'，weeknum']]

In [66]: df[['hour', 'weekday', 'weeknum']] = df.apply(lambdafunc, axis=1)

输出如下

In [67]: df
Out[67]:
       mydate     mytime  hour  weekday  weeknum
0  2011-01-01 2011-11-14     0       52        5
1  2011-01-02 2011-11-15     0       52        6
2  2011-01-03 2011-11-16     0        1        0
3  2011-01-04 2011-11-17     0        1        1
4  2011-01-05 2011-11-18     0        1        2
5  2011-01-06 2011-11-19     0        1        3
6  2011-01-07 2011-11-20     0        1        4
7  2011-01-08 2011-11-21     0        1        5
8  2011-01-09 2011-11-22     0        1        6
9  2011-01-10 2011-11-23     0        2        0
10 2011-01-11 2011-11-24     0        2        1
11 2011-01-12 2011-11-25     0        2        2

补充：

根据

lambdafunc

执行的任务，将

apply

的结果存储在新的

DataFrame

中，然后与原始数据帧合并，您可能会遇到一些加速：

lambdafunc = lambda x: pd.Series([x['mytime'].hour,
                                  x['mydate'].isocalendar()[1],
                                  x['mydate'].weekday()])

newcols = df.apply(lambdafunc, axis=1)
newcols.columns = ['hour', 'weekday', 'weeknum']
newdf = df.join(newcols)

即使您没有看到速度的提高，我也建议您使用

join

。您将能够避免直接在列上分配时可能弹出的（总是令人讨厌的）

设置和copywarning

：

SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

通过让应用的函数返回一个带有命名元素的

pd.Series

，您可以用一种更简洁的方法来实现这一点：

def process(row):
    return pd.Series(dict(b=row["a"] * 2, c=row["a"] + 2))


my_df = pd.DataFrame(dict(a=range(10)))
new_df = my_df.join(my_df.apply(process, axis="columns"))

结果是：

   a   b   c
0  0   0   2
1  1   2   3
2  2   4   4
3  3   6   5
4  4   8   6
5  5  10   7
6  6  12   8
7  7  14   9
8  8  16  10
9  9  18  11

文卡特，你好。代码段返回一个TypeError:zip参数#1必须支持迭代谢谢，John。看起来不错。这种方法比原始帖子中的方法执行得更快。对于约500行的数据帧，您的方法的平均性能为0.1446926秒，而原始方法的平均性能为0.15949020秒（10次运行）。

lambdafunc=lambda x:

——为什么不直接使用

def lambdafunc（x）：

？如果要立即命名匿名函数，那么使用匿名函数没有多大意义

   a   b   c
0  0   0   2
1  1   2   3
2  2   4   4
3  3   6   5
4  4   8   6
5  5  10   7
6  6  12   8
7  7  14   9
8  8  16  10
9  9  18  11