Python 如何识别熊猫数据集中的特定序列(往返)?
我有一个简单但有挑战性的算法问题要解决 我有一个交易员-股票-日级别的数据集,我想确定数据中的往返。往返只是数据中的特定序列。也就是说,如果你在一段时间内累积单个i的股票s的持有头寸,那么一个往返过程以零净持有头寸开始和结束 例如:Python 如何识别熊猫数据集中的特定序列(往返)?,python,algorithm,pandas,finance,Python,Algorithm,Pandas,Finance,我有一个简单但有挑战性的算法问题要解决 我有一个交易员-股票-日级别的数据集,我想确定数据中的往返。往返只是数据中的特定序列。也就是说,如果你在一段时间内累积单个i的股票s的持有头寸,那么一个往返过程以零净持有头寸开始和结束 例如: pd.DataFrame({'trader' : ['a','a','a','a','a','a','a'], 'stock' : ['a','a','a','a','a','a','b'], 'day' :[
pd.DataFrame({'trader' : ['a','a','a','a','a','a','a'],
'stock' : ['a','a','a','a','a','a','b'],
'day' :[0,1,2,4,5,10,1],
'delta':[10,-10,15,-10,-5,5,6],
'cumq' : [10,0,15,5,0,5,6] ,
'tag': [1,1,2,2,2,0,0]})
输出
Out[15]:
cumq day delta stock tag trader
0 10 0 10 a 1 a
1 0 1 -10 a 1 a
2 15 2 15 a 2 a
3 5 4 -10 a 2 a
4 0 5 -5 a 2 a
5 5 10 5 a 0 a
6 6 1 6 b 0 a
在这里,您可以看到交易员a
购买了两支股票(a
和b
)<代码>增量对应于给定日期购买或出售的数量。因此,您可以看到,我们在股票a
(-10+10=0)和(+15-10-5=0)上有两个完整的往返行程,在股票a
上有两个未完成的往返行程(+5个,在股票b
)
我希望能够创建一个变量标记
,告诉我这一点。也就是说,当往返未终止时,变量为0,并且对于给定的股票交易者组合中标识的第一、第二、第三等往返,取值1、2、3
你知道如何有效地做到这一点吗?
非常感谢
编辑:
- 卖空是可能的。例如,卖出10、买入25、卖出25和买入10将是一次往返
- 可以在同一天执行往返:在这种情况下,增量将为零(事实上,您当天买卖的数量相同)。这意味着在数据中,多个每日往返可以相互跟踪。因此,往返行程的0边界是包含在内的。示例:今天买入10卖出10(delta=0),然后明天买入15卖出15(delta=0)。这些对应于两个不同的连续往返行程
import pandas as pd
import numpy as np
df = pd.DataFrame({'trader' : ['a','a','a','a','a','a','a'],'stock' : ['a','a','a','a','a','a','b'], 'day' :[0,1,2,4,5,10,1],'delta':[10,-10,15,-10,-5,5,0] ,'out': [1,1,2,2,2,0,1]})
def proc_trader(_df):
_df['tag'] = np.nan
# make every ending of a roundtrip with its index
_df['tag'][df.cumq == 0] = range(1, (_df.cumq == 0).sum() + 1)
# backfill the roundtrip index until previous roundtrip;
# then fill the rest with 0s (roundtrip incomplete for most recent trades)
_df['tag'] = _df['tag'].fillna(method = 'bfill').fillna(0)
return _df
df.sort_values(by=['trader', 'stock','day'], inplace=True)
df['cumq']=df.groupby(['trader', 'stock']).delta.transform('cumsum')
df = df.groupby(['trader', 'stock']).apply(proc_trader)
有什么想法吗?
非常感谢 我会这样做:
import pandas as pd
import numpy as np
df = pd.DataFrame({'trader' : ['a','a','a','a','a','a','a'],'stock' : ['a','a','a','a','a','a','b'], 'day' :[0,1,2,4,5,10,1],'delta':[10,-10,15,-10,-5,5,6], 'cumq' : [10,0,15,5,0,6,11] ,'tag': [1,1,2,2,2,0,0]})
def proc_trader(_df):
if _df.shape[0] == 1:
_df['tag'] = _df['delta'] == 0
return _df
_df['tag'] = np.nan
# make every ending of a roundtrip with its index
_df['tag'][df.cumq == 0] = range(1, (df.cumq == 0).sum() + 1)
# backfill the roundtrip index until previous roundtrip;
# then fill the rest with 0s (roundtrip incomplete for most recent trades)
_df['tag'] = _df['tag'].fillna(method = 'bfill').fillna(0)
return _df
df = df.groupby(['trader', 'stock']).apply(proc_trader)
这个想法是,每个交易者的记录都由一系列的往返组成,除了最后可能发生的情况;这假设了应该如何计算零增量周期。我们检测往返周期的所有结束,反向支撑指数,并用0填充剩余部分。如何处理卖空?如果允许的话,一个在第二天买入10并卖出20的交易者的产出是多少?卖空将以负开始。假设你卖10,然后你买10。这是完全合法的,但是如果在同一天被划过呢?您是强制零并有重复的天数,还是只显示当天的净变化?谢谢,但我得到
值错误:当我运行您的代码时,替换的长度必须等于序列长度
我的错误。我选中了groupby('trader')
,但没有选中groupby(['trader','stock'])
。此编辑应适用于上述示例。这个错误来自于组大小为1(一个交易者对一个给定的证券执行一次交易)。嗨,Yakym,显然我仍然有同样的问题。请看我编辑的帖子。我想代码中有一些拼写错误:df
而不是\u df
。请看我编辑的帖子。