GLM.jl中带有DataFrames.jl的分类数据的指标矩阵
我正在处理一个大型数据集,希望对每月数据运行logit回归。为此,我创建了一个DataFrame并使用Julia中的GLM包。 我的代码看起来像这样:GLM.jl中带有DataFrames.jl的分类数据的指标矩阵,dataframe,julia,glm,categorical-data,Dataframe,Julia,Glm,Categorical Data,我正在处理一个大型数据集,希望对每月数据运行logit回归。为此,我创建了一个DataFrame并使用Julia中的GLM包。 我的代码看起来像这样: f=glm((Y ~ Age + Duration + Gender + Nationality + MonthIn), Data2000, Binomial(), LogitLink()) 我的问题是,因为我有每月的数据,所以我想为12个月或11个月创建虚拟变量,当我想使用常数时。MonthIn只是一个列,其中包含月份的数字(如3月份的数字
f=glm((Y ~ Age + Duration + Gender + Nationality + MonthIn), Data2000, Binomial(), LogitLink())
我的问题是,因为我有每月的数据,所以我想为12个月或11个月创建虚拟变量,当我想使用常数时。MonthIn只是一个列,其中包含月份的数字(如3月份的数字)。我不想对此进行回归,只是将其包含在这里,以便更容易地解释
现在,当我试图找到如何做到这一点时,我刚刚了解到,在R中,这种可能性是建立在一些回归方法s.t.中的,它可以自动创建每月的假人。我认为,朱莉娅的情况并非如此。
现在,我的一个猜测是使用dataframe.jl中构建的pooling data函数来创建一个指标矩阵,但我不确定如何实现这一点或类似的操作。或者仅仅是如何用手制作假人
我非常感谢任何帮助,如果我的问题不清楚,请随时提问
干杯
PS:从这个问题中我知道我必须创建一个池数据数组,但我不确定它是如何完成的。
好的,我终于想出来了。我要做的事情就是把月数集中在一栏里,pool!(Data2000,[:MonthIn])来获取它。之后它与glm logit函数一起工作,并且也已经摆脱了第一个月作为不具有共线性。