Python Statsmodels中面板数据的线性混合模型和时间自相关

Python Statsmodels中面板数据的线性混合模型和时间自相关,python,time-series,statsmodels,mixed-models,panel-data,Python,Time Series,Statsmodels,Mixed Models,Panel Data,我在观察bakesale的销售人员之间的轮班情况,试图了解销售人员在轮班的不同时间的销售情况是否存在实质性差异。具体而言,我试图评估a)各轮班时间之间的趋势是否显著,以及b)相对于其他一些潜在解释变量,这一排名如何 该数据集为相同长度的每个销售人员提供了多个班次,每个班次除以小时 例如 有人在回顾我的研究时告诉我,我的模型中存在大量的自相关,但我不清楚如何弥补这一点 我知道在传统的时间序列数据集中,我们可以使用AR(1)和Cochrane Orcutt来考虑自相关项,但这些时间序列计算通常是在

我在观察bakesale的销售人员之间的轮班情况,试图了解销售人员在轮班的不同时间的销售情况是否存在实质性差异。具体而言,我试图评估a)各轮班时间之间的趋势是否显著,以及b)相对于其他一些潜在解释变量,这一排名如何

该数据集为相同长度的每个销售人员提供了多个班次,每个班次除以小时

例如

有人在回顾我的研究时告诉我,我的模型中存在大量的自相关,但我不清楚如何弥补这一点


我知道在传统的时间序列数据集中,我们可以使用AR(1)和Cochrane Orcutt来考虑自相关项,但这些时间序列计算通常是在存在单个时间序列的数据集上进行的。

statsmodels MixedLM不允许在随机系数或随机效应之外直接关联残差

您可以使用statsmodels.GEE,它是一种单向面板数据模型,允许更大范围的相关结构,包括AR(1)。对于Gaussian族,它类似于MixedLM。然而,它使用的估计方程类似于计量经济学中精确识别的GMM,GEE默认使用集群稳健标准误差。具有连续相关误差的假设是解释变量是外生的

这里有一些给吉的笔记本


标准计量经济学的面板数据与科克伦·奥克特(Cochrane Orcutt)或佩雷斯·温斯顿(Prais Winston)的数据相似,但尚不包括在Stats模型中(尽管可能有一个草案版本存在)。

我不完全清楚您在这里试图解释的独立错误违反了什么。在TS框架中,我们假设未来的观测与过去的观测相关
cor(e_t,e_{t+1})!=0
。在传销中,我们假设组内的观察结果(在您的案例中,
销售人员
)是相关的
cor(e{i,j},e{i,k})!=0)
where
j!=k
。或者你也在试图控制班次内的相关错误?请你重新措辞/澄清你的问题好吗?谢谢你帮我澄清这个问题-我想问题是,在过去的一个小时里,可能会有相互关联(例如,如果前一个小时的高销售额影响到当前的一个小时)…在我的脑海中,我不确定这是否适合传销框架。。。你为什么不测试一下这个问题有多严重?这肯定有帮助。QQ图的偏差似乎小得多,尽管模型参数相对于混合LM估计变化不大。通常,线性函数的参数估计对OLS或GLM(线性指数族)中的错误指定方差和相关性具有鲁棒性。只有标准误差和它是否是一个有效的估计量受到影响。(GEE中的集群稳健标准误差对任何类型的集群内相关性都是稳健的。)
model = sm.MixedLM.from_formula("Cookies ~ C(Hour) + CustomerArrivals + Oventemp", BakeSaleData, groups=BakeSaleData["Salesperson"])
result = model.fit()
print(result.summary())