R 具有多个嵌套类别协变量的回归

R 具有多个嵌套类别协变量的回归,r,regression,R,Regression,我有几十万个测量,其中 变量是一个概率,希望使用逻辑回归。 然而,我得到的协变量都是绝对的,更糟糕的是,都是绝对的 嵌套的。我的意思是,如果某个度量有“城市”- “凤凰城”显然,它肯定会有“亚利桑那州”和 “国家——美国。”我有四个这样的因素——最细粒度的有 大约20k级,但如果需要的话,我想我可以不用那个。 我也有一些非嵌套的分类协变量(只有四个左右, 每个级别可能有三个不同的级别)。 我最感兴趣的是什么 预测是一个新的观察在某个城市,我想 了解相关概率/因变量。我不感兴趣 在相关的推理机制-

我有几十万个测量,其中 变量是一个概率,希望使用逻辑回归。 然而,我得到的协变量都是绝对的,更糟糕的是,都是绝对的 嵌套的。我的意思是,如果某个度量有“城市”- “凤凰城”显然,它肯定会有“亚利桑那州”和 “国家——美国。”我有四个这样的因素——最细粒度的有 大约20k级,但如果需要的话,我想我可以不用那个。 我也有一些非嵌套的分类协变量(只有四个左右, 每个级别可能有三个不同的级别)。 我最感兴趣的是什么 预测是一个新的观察在某个城市,我想 了解相关概率/因变量。我不感兴趣 在相关的推理机制-标准偏差中, 等等——至少到目前为止。我希望我能做得起马虎。 然而,我希望能得到这些信息,除非它需要 计算成本更高的方法。 有人对如何攻击这一点有什么建议吗?我已经调查过了
混合效果,但我不确定它是否是我想要的。

我认为这更多的是模型设计问题,而不是具体的R;因此,我想先讨论问题的背景,然后再讨论适当的R包

如果因变量是概率,例如,$y\ in[0,1]$,则逻辑回归不适用于数据——特别是考虑到您对预测样本外的概率感兴趣。逻辑将对自变量对因变量从零变为一的概率的贡献进行建模,因为变量是连续的且被截断,所以需要不同的规范


我认为你关于混合效应的后一种直觉是好的。由于您的观察结果是嵌套的,即,
US
,因此多级模型,或者在本例中是分层线性模型,可能是数据的最佳规范。对于这种类型的建模,最好的R包是
multively
nlme
,这两个包都有很好的介绍。您可能特别感兴趣的是从第26页开始的关于多级建模的数据操作的讨论。

我建议您研究弹性网之类的惩罚回归。弹性网络用于文本挖掘,其中每列表示单个单词的存在或不存在,可能有成千上万个变量,这与您的问题类似。从R开始的一个好地方是
glmnet
软件包及其附带的JSS论文:。

嗨,埃里克,如果你有100000个观察值,并且正在用20000个系数拟合回归,那么你对它的拟合过度了,我怀疑它是否能很好地预测样本外的数据。克服这个问题的一种方法是使用相关的“属性”对每个城市进行编码。例如,除了一些地理信息外,您还可以使用人口普查数据中的收入、农村/城市、人口统计等。这将使您的模型保持简洁,并消除嵌套变量问题。如果你能对你试图预测的东西有更多的了解,我可以推荐属性。拉姆纳特