Python 回归标准误差聚类和对异方差的鲁棒性+;序列自相关
如标题所示,我正在尝试用python运行一个回归,其中标准错误是聚集的,并且对异方差和自相关(HAC)具有鲁棒性。我在Python 回归标准误差聚类和对异方差的鲁棒性+;序列自相关,python,regression,statsmodels,standard-error,linearmodels,Python,Regression,Statsmodels,Standard Error,Linearmodels,如标题所示,我正在尝试用python运行一个回归,其中标准错误是聚集的,并且对异方差和自相关(HAC)具有鲁棒性。我在statsmodels(sm)中工作,但显然愿意使用其他库(例如linearmodels) 如按id进行聚类,则代码为 sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='cluster', cov_kwds={'groups': df['id']}, use_t=True) sm.OLS.from_form
statsmodels
(sm
)中工作,但显然愿意使用其他库(例如linearmodels
)
如按id进行聚类,则代码为
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='cluster', cov_kwds={'groups': df['id']}, use_t=True)
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='HAC', cov_kwds={'maxlags': max_lags}, use_t=True)
对于HAC标准错误,代码为
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='cluster', cov_kwds={'groups': df['id']}, use_t=True)
sm.OLS.from_formula(formula='y ~ x', data=df).fit(cov_type='HAC', cov_kwds={'maxlags': max_lags}, use_t=True)
鉴于
cov_类型
不能同时是cluster
和HAC
,在stats模型中似乎不可行?是这样吗,和/或是否有其他方法同时拥有这两种类型?有两种面板HAC cov_类型HAC groupsum
和HAC panel
,但我只知道它们用于面板数据,但它们应该用于集群数据。据我记忆所及,有一些文献表明,在高度不平衡的数据中,它们不是很好(例如,比较美国各州的人口数据,这些州在规模上差异很大)
实现这一点的主要参考是Petersen的文章,例如
单元测试中有一些与Petersen比较的例子
当我们有两个(双向)集群时,Statsmodels也有集群健壮的标准错误
这些协方差矩阵的随机行为取决于大样本中的聚类数、时段数或两者都变大。谢谢(也感谢您对statsmodels所做的一切!)