Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/cassandra/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 具有计数自变量的连续因变量回归模型_R_Linear Regression - Fatal编程技术网

R 具有计数自变量的连续因变量回归模型

R 具有计数自变量的连续因变量回归模型,r,linear-regression,R,Linear Regression,我目前正在从事一个项目,我必须估计不同工作项(任务)的平均处理时间 我有以下面板数据: 我的样本量为n=2000名个体工人,T=10(每个时间间隔为四周) 自变量:51个不同的工作项。我有每个工作项的计数数据(每个工人在四周内执行的次数) 因变量:工人的总工作时间(4周内) 我分析的目标是找到回归系数(每个工作项的平均完成时间的估计值)。我还可能包括其他回归因素(工作项目除外),如经验、年龄。。。进入我的模型 y=Bo+B1*X1+…+BkXk+e y:总工作时间;X:#个工作项 问题: 现

我目前正在从事一个项目,我必须估计不同工作项(任务)的平均处理时间

我有以下面板数据:

我的样本量为n=2000名个体工人,T=10(每个时间间隔为四周)

  • 自变量:51个不同的工作项。我有每个工作项的计数数据(每个工人在四周内执行的次数)

  • 因变量:工人的总工作时间(4周内)

我分析的目标是找到回归系数(每个工作项的平均完成时间的估计值)。我还可能包括其他回归因素(工作项目除外),如经验、年龄。。。进入我的模型

y=Bo+B1*X1+…+BkXk+e y:总工作时间;X:#个工作项

问题:

现在,我完成了数据的清理和处理,并进行了一些探索性的数据分析

  • 某些工作项有很多零(该工作项在一段时间内仅由多个工作人员执行一次或两次)

  • 从VIF可以看出,自变量中存在不完全多重共线性。一些自变量的VIF为5到6

  • 问题:

  • 关于如何指定我的型号有什么建议吗 我查看箱线图并消除每个回归器的异常值,我看到一些回归器是高度倾斜的(由于大量的zéros)

    我还绘制了每个回归系数与总完成时间的关系图,以查看是否存在任何线性关系。其他的看起来更像是二次关系

  • 除了消除具有高VIF的回归系数外,还有什么办法处理多重共线性?这是因为我需要估计每个工作项的系数

  • 我应该将截距设置为0吗?我确信当所有的回归系数都为0时(工作项的数量都为0,我的总工作时间应该为零)


  • 我也欢迎任何关于这个问题的建议/事情。谢谢

    我想这是属于你的。您进行此分析的目标是什么?预测工作时间,或者确定需要很长时间的工作项目,或者准确地量化每个项目的工作,或者?是否在所有(或大多数)时间段内观察到所有(或大多数)工人?谢谢,我也会将其张贴在那里。是的,目标是1)估计完成每个工作项目所需的平均小时数(回归系数),2)一旦我们有了线性模型,我还可以预测y(总工作时间,假设X是工人的工作项目数)是的,几乎所有工人在所有时间段都被观察到;因此,我可以使用面板数据来消除以后无法观察到的影响。到目前为止,我只分析了一段时间的数据。