GLM.jl中带有DataFrames.jl的分类数据的指标矩阵_Dataframe_Julia_Glm_Categorical Data

GLM.jl中带有DataFrames.jl的分类数据的指标矩阵

dataframe julia

GLM.jl中带有DataFrames.jl的分类数据的指标矩阵,dataframe,julia,glm,categorical-data,Dataframe,Julia,Glm,Categorical Data,我正在处理一个大型数据集，希望对每月数据运行logit回归。为此，我创建了一个DataFrame并使用Julia中的GLM包。我的代码看起来像这样： f=glm((Y ~ Age + Duration + Gender + Nationality + MonthIn), Data2000, Binomial(), LogitLink()) 我的问题是，因为我有每月的数据，所以我想为12个月或11个月创建虚拟变量，当我想使用常数时。MonthIn只是一个列，其中包含月份的数字（如3月份的数字

我正在处理一个大型数据集，希望对每月数据运行logit回归。为此，我创建了一个DataFrame并使用Julia中的GLM包。我的代码看起来像这样：

f=glm((Y ~  Age + Duration + Gender + Nationality + MonthIn), Data2000, Binomial(), LogitLink())

我的问题是，因为我有每月的数据，所以我想为12个月或11个月创建虚拟变量，当我想使用常数时。MonthIn只是一个列，其中包含月份的数字（如3月份的数字）。我不想对此进行回归，只是将其包含在这里，以便更容易地解释

现在，当我试图找到如何做到这一点时，我刚刚了解到，在R中，这种可能性是建立在一些回归方法s.t.中的，它可以自动创建每月的假人。我认为，朱莉娅的情况并非如此。现在，我的一个猜测是使用dataframe.jl中构建的pooling data函数来创建一个指标矩阵，但我不确定如何实现这一点或类似的操作。或者仅仅是如何用手制作假人

我非常感谢任何帮助，如果我的问题不清楚，请随时提问

干杯

PS：从这个问题中我知道我必须创建一个池数据数组，但我不确定它是如何完成的。

好的，我终于想出来了。我要做的事情就是把月数集中在一栏里，pool！（Data2000，[：MonthIn]）来获取它。之后它与glm logit函数一起工作，并且也已经摆脱了第一个月作为不具有共线性。