Python 使用返回数组的函数重新采样_Python_Arrays_Pandas

Python 使用返回数组的函数重新采样

python arrays pandas

Python 使用返回数组的函数重新采样,python,arrays,pandas,Python,Arrays,Pandas,pd.resample函数接受从数组到数字的任何函数作为其how关键字参数（尽管该参数不在列表中）。因此，下面的示例非常有效 #!/usr/bin/python import numpy as np import pandas as pd dates = pd.date_range('20130101', periods=60) df = pd.DataFrame(np.random.randn(60,4), index=dates, columns=list('ABCD')) print df

pd.resample

函数接受从数组到数字的任何函数作为其

how

关键字参数（尽管该参数不在列表中）。因此，下面的示例非常有效

#!/usr/bin/python
import numpy as np
import pandas as pd
dates = pd.date_range('20130101', periods=60)
df = pd.DataFrame(np.random.randn(60,4), index=dates, columns=list('ABCD'))
print df.resample('10D', how=np.std, axis=0)

但是，对于返回数组的函数，是否有同样的方法？例如，如果我尝试

df.resample（'10D'，how=np.fft.rfft，axis=0）

pandas将退出：

Exception: Data must be 1-dimensional

现在，有没有一种方法可以将

rfft

等函数与偏移字符串功能一起使用（例如，如果我想对数据中的每个“10Min”块进行fft）

我知道我可能可以先使用groupby或分离数据帧来实现这一点，但由于pandas的偏移量字符串非常容易使用（在我的实际数据分析领域特别有用），我想知道如何才能做到这一点而不丢失其功能

编辑

如果我尝试

df.groupby（pd.TimeGrouper（'10D'））.apply（np.fft.rfft，axis=0）

它会给出以下错误：

TypeError: cannot concatenate a non-NDFrame object

因为fft函数会改变输入的形状，所以不能直接应用它。这里有一个方法来包装它

In [331]: def wrap_fft(df):
     ...:     return pd.DataFrame({c:np.fft.rfft(df[c]) for c in df})

In [332]: df.groupby(pd.TimeGrouper('10D')).apply(wrap_fft)
Out[332]: 
                                                 A  \
2013-01-01 0                    (0.54057835524+0j)   
           1        (3.58718639626-2.07316200855j)   
           2        (1.31007762632+1.22430332479j)   
           3       (4.36758085029-0.236242884113j)   
           4     (-0.0546232575249+2.11668684871j)   
           5                    (1.55071284264+0j)   
2013-01-11 0                    (4.11929430037+0j)   
           1       (-0.93001545894-2.65804406349j)   
           2        (1.20206318744-1.43815460311j)   
           3        (1.24340282215-4.38679576432j)   
           4     (-0.582004943723-0.943867990404j)   
           5                   (-1.81316546447+0j)   
2013-01-21 0                   (-1.49246511083+0j)   
           1      (-1.15010974637+0.527648266336j)   
           2        (-2.5428259911+2.36604684921j)   
           3      (-2.76468733089+0.860053921011j)   
           4       (-1.41328489201-0.36756122307j)   
           5                   (-3.13773122523+0j)   
  .........

实现这一点的一般方法是df.groupby（pd.TimeGrouper（'10D'））。apply（…）我以前已经尝试过了。我尝试

df.groupby（pd.TimeGrouper（'10D'））.apply（np.fft.rfft，axis=0）

它给了我一个错误：

TypeError:无法连接一个非NDFrame对象

@chrisb我编辑了这个问题以包含这个事实。谢谢，直到今天我都很难理解groupby是如何工作的。这真的很有效。