Python 熊猫的窗口重叠

Python 熊猫的窗口重叠,python,numpy,pandas,Python,Numpy,Pandas,在pandas中,有几种方法可以操作给定窗口中的数据(例如pd.rolling\u mean或pd.rolling\u std),但是,我想设置一个窗口重叠,我认为这是一个相当标准的要求。例如,在下图中,您可以看到一个横跨256个样本和重叠128个样本的窗口 如何使用Pandas或Numpy中包含的优化方法来实现这一点?我不熟悉Pandas,但在Numpy中,您可以这样做(未经测试): 这是从一些旧代码中提取出来的,用于计算平均PSD,通常使用半重叠窗口进行处理。请注意,window是数组x中

在pandas中,有几种方法可以操作给定窗口中的数据(例如
pd.rolling\u mean
pd.rolling\u std
),但是,我想设置一个窗口重叠,我认为这是一个相当标准的要求。例如,在下图中,您可以看到一个横跨256个样本和重叠128个样本的窗口


如何使用Pandas或Numpy中包含的优化方法来实现这一点?

我不熟悉Pandas,但在Numpy中,您可以这样做(未经测试):


这是从一些旧代码中提取出来的,用于计算平均PSD,通常使用半重叠窗口进行处理。请注意,
window
是数组x中的一个“视图”,这意味着它不进行任何数据复制(非常快,可能很好),如果您修改
window
,您也会修改
x
(所以不要这样做
window=hann*window
)。

使用
作为
,您会这样做:

import numpy as np
from numpy.lib.stride_tricks import as_strided

def windowed_view(arr, window, overlap):
    arr = np.asarray(arr)
    window_step = window - overlap
    new_shape = arr.shape[:-1] + ((arr.shape[-1] - overlap) // window_step,
                                  window)
    new_strides = (arr.strides[:-1] + (window_step * arr.strides[-1],) +
                   arr.strides[-1:])
    return as_strided(arr, shape=new_shape, strides=new_strides)
如果将1D数组传递给上述函数,它将返回该数组的2D视图,形状
(窗口数,窗口大小)
,因此您可以计算,例如,窗口平均值如下:

win_avg = np.mean(windowed_view(arr, win_size, win_overlap), axis=-1)
例如:

>>> a = np.arange(16)
>>> windowed_view(a, 4, 2)
array([[ 0,  1,  2,  3],
       [ 2,  3,  4,  5],
       [ 4,  5,  6,  7],
       [ 6,  7,  8,  9],
       [ 8,  9, 10, 11],
       [10, 11, 12, 13],
       [12, 13, 14, 15]])
>>> windowed_view(a, 4, 1)
array([[ 0,  1,  2,  3],
       [ 3,  4,  5,  6],
       [ 6,  7,  8,  9],
       [ 9, 10, 11, 12],
       [12, 13, 14, 15]])

谢谢你确定新的步伐吗?它给了我一个类型错误:TypeError:只能将元组(而不是“int”)连接到元组。我刚刚编辑了它,在
arr.strips[-1]
之后有一个丢失的
。我不确定为什么,但仍然收到一个错误。这次
ValueError:不允许负维度
。有时我也会得到一个空数组。我认为它适用于形状数组(1),形状计算中出现了一个小问题,现在已经纠正了,但它基本上工作正常,特别是当重叠部分是窗口大小的一半时。我添加了几个例子,现在效果很好。我真的需要掌握这些事情的诀窍。非常感谢。顺便问一下,什么是
hann(nwin)
?对不起,那应该是(错误命名的)
numpy.hanning()
,或者
scipy.signal.hann()
,这是。这是一个从0到1再向后平滑运行的函数,因此对于半重叠窗口,您或多或少地平等地使用所有点。计算FFT时,平滑度很重要。您建议在图表中使用类似的蓝线,但不确定在您的案例中是否真的需要它。
>>> a = np.arange(16)
>>> windowed_view(a, 4, 2)
array([[ 0,  1,  2,  3],
       [ 2,  3,  4,  5],
       [ 4,  5,  6,  7],
       [ 6,  7,  8,  9],
       [ 8,  9, 10, 11],
       [10, 11, 12, 13],
       [12, 13, 14, 15]])
>>> windowed_view(a, 4, 1)
array([[ 0,  1,  2,  3],
       [ 3,  4,  5,  6],
       [ 6,  7,  8,  9],
       [ 9, 10, 11, 12],
       [12, 13, 14, 15]])