Python 如何从OLS fit摘要中识别varname?
这是MLB的一个模型,据我所知,每个var名称(x1、x2、x3…)都应该与投手名称相关联。如何识别与var名称关联的投手Python 如何从OLS fit摘要中识别varname?,python,linear-regression,summary,variable-names,Python,Linear Regression,Summary,Variable Names,这是MLB的一个模型,据我所知,每个var名称(x1、x2、x3…)都应该与投手名称相关联。如何识别与var名称关联的投手 OLS Regression Results ============================================================================== Dep. Variable: successful
OLS Regression Results
==============================================================================
Dep. Variable: successful_at_bat R-squared: 0.055
Model: OLS Adj. R-squared: 0.045
Method: Least Squares F-statistic: 5.207
Date: Tue, 01 Jun 2021 Prob (F-statistic): 0.00
Time: 18:57:55 Log-Likelihood: -42135.
No. Observations: 65866 AIC: 8.574e+04
Df Residuals: 65131 BIC: 9.243e+04
Df Model: 734
Covariance Type: nonrobust
coef std err t P>|t| [0.025 0.975]
x1 0.9994 0.020 50.594 0.000 0.961 1.038
x2 0.2606 0.139 1.871 0.061 -0.012 0.534
x3 0.2035 0.109 1.869 0.062 -0.010 0.417
x4 -0.0138 0.061 -0.224 0.822 -0.134 0.107
x5 -0.0558 0.112 -0.498 0.618 -0.276 0.164
x6 0.0275 0.073 0.375 0.708 -0.116 0.171
x7 0.0896 0.206 0.434 0.664 -0.315 0.494
x8 0.0071 0.043 0.164 0.870 -0.078 0.092
x9 -0.0242 0.049 -0.498 0.618 -0.119 0.071
x10 -0.0366 0.036 -1.028 0.304 -0.107 0.033
使用的代码:
dummy_df=pd.get_dummie(在击球数据['pitcher_name'])。重置索引(drop=True)
在bat级完成数据虚拟=pd.concat([在bat数据重置索引(drop=True),虚拟df],轴=1)
协变量df=pd.merge(在击球手级别上完成击球数据,在击球手级别上完成击球数据,在击球手姓名上完成击球数据,在比赛日期上完成击球数据)
y=协变量_df[“成功_在_bat”]
x=协变量测向[[击球平均值]+列表(虚拟测向列)]。值
模型=sm.OLS(y,x)
fit=model.fit()
fit_summary=fit.summary()
为了确定哪个投手与x的每个变量相关,您必须使用输入数据的元数据,即一些描述哪个投手是x1或x2的数据。OLS模型提供了不同的数据,例如coef是在考虑其他参与者或x变量时,变量x对dep变量SUCCESS_at_bat的影响。我编辑了您的问题,以包括您刚才共享的代码,以便其他S/O用户也可以响应