Python 熊猫：具有可变权重的指数衰减和_Python_Pandas_Exponential

Python 熊猫：具有可变权重的指数衰减和

python pandas

Python 熊猫：具有可变权重的指数衰减和,python,pandas,exponential,Python,Pandas,Exponential,与这个问题类似，我想快速计算数据帧中某些列的指数衰减和。但是，数据帧中的行在时间上不是均匀分布的。因此，虽然指数和[i]=列和[i]+np.exp（-const*（time[i]-time[i-1]）*指数和[i-1]，但权重np.exp（…）并没有考虑到，我也不清楚如何改变这个问题，仍然利用pandas/numpy矢量化。这个问题有矢量化的解决方案吗为了说明所需的计算，这里是一个样本帧，其指数移动和a存储在sum中，使用衰减常数1： time A Sum 0 1.0

与这个问题类似，我想快速计算数据帧中某些列的指数衰减和。但是，数据帧中的行在时间上不是均匀分布的。因此，虽然

指数和[i]=列和[i]+np.exp（-const*（time[i]-time[i-1]）*指数和[i-1]

，但权重

np.exp（…）

并没有考虑到，我也不清楚如何改变这个问题，仍然利用pandas/numpy矢量化。这个问题有矢量化的解决方案吗

为了说明所需的计算，这里是一个样本帧，其指数移动和

存储在

sum

中，使用衰减常数1：

    time  A       Sum
0   1.00  1  1.000000
1   2.10  3  3.332871
2   2.13 -1  2.234370
3   3.70  7  7.464850
4  10.00  2  2.013708
5  10.20  1  2.648684

通过扩展您链接到的内容，我想出了以下方法

首先，请注意：

exponential_sum[i] = column_to_sum[i] + 
    np.exp(-const*(time[i]-time[i-1])) * column_to_sum[i-1] + 
    np.exp(-const*(time[i]-time[i-2])) * column_to_sum[i-2] + ...

所以要做的主要更改是生成权重空间以匹配上面的公式。我是这样说的：

time = pd.Series(np.random.rand(10)).cumsum()
weightspace = np.empty((10,10))
for i in range(len(time)):
    weightspace[i] = time - time[i]
weightspace = np.exp(weightspace)

不要担心矩阵左下角的三角形，它不会被使用。顺便说一句，必须有一种无循环生成权重空间的方法

然后，在滚动函数中从权重空间拾取权重的方式有一点变化：

def rollingsum(array):
    weights = weightspace[len(array)-1][:len(array)]
    # Convolve the array and the weights to obtain the result
    a = np.dot(array, weights).sum()
    return a

按预期工作：

dataset = pd.DataFrame(np.random.rand(10,3), columns=["A", "B","C"])
a = pd.expanding_apply(dataset, rollingsum)

这个问题比最初出现的更复杂。我最终使用numba的jit编译了一个生成器函数来计算指数和。我的最终结果是，在我的计算机上，在不到一秒钟的时间内计算出500万行的指数总和，希望它能足够快地满足您的需要

# Initial dataframe.
df = pd.DataFrame({'time': [1, 2.1, 2.13, 3.7, 10, 10.2], 
                   'A': [1, 3, -1, 7, 2, 1]})

# Initial decay parameter.
decay_constant = 1

我们可以将衰减权重定义为exp（-time_delta*detacy_constant），并将其初始值设置为1：

df['weight'] = np.exp(-df.time.diff() * decay_constant)
df.weight.iat[0] = 1

>>> df
   A   time    weight
0  1   1.00  1.000000
1  3   2.10  0.332871
2 -1   2.13  0.970446
3  7   3.70  0.208045
4  2  10.00  0.001836
5  1  10.20  0.818731

现在，我们将使用jit from优化计算指数和的生成器函数：

from numba import jit

@jit(nopython=True)
def exponential_sum(A, k):
    total = A[0]
    yield total
    for i in xrange(1, len(A)):  # Use range in Python 3.
        total = total * k[i] + A[i]
        yield total

我们将使用生成器将值添加到数据帧：

df['expSum'] = list(exponential_sum(df.A.values, df.weight.values))

它产生所需的输出：

>>> df
   A   time    weight    expSum
0  1   1.00  1.000000  1.000000
1  3   2.10  0.332871  3.332871
2 -1   2.13  0.970446  2.234370
3  7   3.70  0.208045  7.464850
4  2  10.00  0.001836  2.013708
5  1  10.20  0.818731  2.648684

让我们扩展到500万行并检查性能：

df = pd.DataFrame({'time': np.random.rand(5e6).cumsum(), 'A': np.random.randint(1, 10, 5e6)})
df['weight'] = np.exp(-df.time.diff() * decay_constant)
df.weight.iat[0] = 1

%%timeit -n 10 
df['expSum'] = list(exponential_sum(df.A.values, df.weight.values))
10 loops, best of 3: 726 ms per loop

“你能对你的数据帧进行重采样，使其均匀分布吗？”Alexander我问的是总和，而不是平均数，尽管可能有一个明显的问题transform@Alexander我只是更仔细地阅读了这个问题，我不认为它解决了我的问题，即如何计算矢量化的numpy/pandas。我在python循环中计算指数和没有任何问题，我只是在足够大的框架上进行计算，以便能够对计算进行矢量化。您能提供一些示例数据吗？这个解决方案的一个问题是权重空间现在非常大。在常规情况下的解决方案中，数据帧的大小是线性的，现在是二次的。这使得它在大型帧中出现问题。大帧是需要矢量化解决方案的原因。这是不可避免的吗？缺少像@Alexander这样的优化for循环，我恐怕看不到另一种方法。我使用Cython来实现类似的解决方案，但一直希望有一个我所缺少的numpy/scipy的巧妙使用。似乎大家的共识是否定的。这个答案的一个变体似乎是你能做的最好的。