在python中格式化OLS回归的数据帧_Python_Pandas_Statistics_Data Analysis_Statsmodels

在python中格式化OLS回归的数据帧

python pandas statistics

在python中格式化OLS回归的数据帧,python,pandas,statistics,data-analysis,statsmodels,Python,Pandas,Statistics,Data Analysis,Statsmodels,为了进行经济计量分析，我试图对巴西央行和一家政府研究机构提供的一些教育、健康和收入数据进行回归分析。Python、pandas、statsmodels和matplotlib是我在这个项目中使用最多的外部库数据的格式在多个表中，行为年份，列为城市/州（有些文件包含城市数据，有些文件包含州数据）按城市和年份划分的收入数据框架示例： 1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \ 1970 0.3

为了进行经济计量分析，我试图对巴西央行和一家政府研究机构提供的一些教育、健康和收入数据进行回归分析。Python、pandas、statsmodels和matplotlib是我在这个项目中使用最多的外部库

数据的格式在多个表中，行为年份，列为城市/州（有些文件包含城市数据，有些文件包含州数据）

按城市和年份划分的收入数据框架示例：

1200302  1200328  ...   1720937  1720978  1721000  1721109  1721208  \
1970     0.31      NaN  ...       NaN      NaN      NaN     0.20     0.28   
1980     0.39      NaN  ...       NaN      NaN      NaN     0.45     0.57   
1991     0.44      NaN  ...       NaN      NaN     1.45     0.65     0.46

（顶部的每个数字都是城市代码——许多城市都有相同的名称

对于州数据，每个州的测量时间为20-30年，而对于城市，当进行全国人口普查时，该数据仅适用于3-4年。）

我想比较一下教育、健康和收入方面的指标。所有指标均已选定，数据集已导入pandas数据框，并已进行了最低限度的清理

对于多个自变量，如何在所有城市/州的OLS或FE回归中找到R值？

现在我的程序配置为一次运行两个州或两个城市的一个自变量的线性OLS回归：

one = df1[col]
two = df2[[col,'const']].join(df3[col])
est = sm.OLS(one, two, missing='drop').fit()

这种不平衡面板数据的标准方法是为每个横截面单元叠加时间序列，并为固定效应创建虚拟变量

为横截面单位创建固定效果（即单位特定截距）需要一个带有州和城市标签或ID的分类变量。然后，公式接口和patsy可以使用

C（id）

创建所需的虚拟变量

然后利用最小二乘法对有限元模型进行估计。拟合方法有一个cov_类型选项，可以使用面板或集群稳健标准误差来校正横截面或相关性内的误差。

感谢您的回复！fit（）方法中的

“cov_type='nonrobust'

参数非常有用。位置的分类变量我从未想过要使用。完成后，我将发布用于FE模型的数据帧和OLS方法的更新设计。