R 具有多个嵌套类别协变量的回归_R_Regression

R 具有多个嵌套类别协变量的回归

R 具有多个嵌套类别协变量的回归,r,regression,R,Regression,我有几十万个测量，其中变量是一个概率，希望使用逻辑回归。然而，我得到的协变量都是绝对的，更糟糕的是，都是绝对的嵌套的。我的意思是，如果某个度量有“城市”- “凤凰城”显然，它肯定会有“亚利桑那州”和 “国家——美国。”我有四个这样的因素——最细粒度的有大约20k级，但如果需要的话，我想我可以不用那个。我也有一些非嵌套的分类协变量（只有四个左右，每个级别可能有三个不同的级别）。我最感兴趣的是什么预测是一个新的观察在某个城市，我想了解相关概率/因变量。我不感兴趣在相关的推理机制-

我有几十万个测量，其中变量是一个概率，希望使用逻辑回归。然而，我得到的协变量都是绝对的，更糟糕的是，都是绝对的嵌套的。我的意思是，如果某个度量有“城市”- “凤凰城”显然，它肯定会有“亚利桑那州”和 “国家——美国。”我有四个这样的因素——最细粒度的有大约20k级，但如果需要的话，我想我可以不用那个。我也有一些非嵌套的分类协变量（只有四个左右，每个级别可能有三个不同的级别）。我最感兴趣的是什么预测是一个新的观察在某个城市，我想了解相关概率/因变量。我不感兴趣在相关的推理机制-标准偏差中，等等——至少到目前为止。我希望我能做得起马虎。然而，我希望能得到这些信息，除非它需要计算成本更高的方法。有人对如何攻击这一点有什么建议吗？我已经调查过了

混合效果，但我不确定它是否是我想要的。

我认为这更多的是模型设计问题，而不是具体的R；因此，我想先讨论问题的背景，然后再讨论适当的R包

如果因变量是概率，例如，$y\ in[0,1]$，则逻辑回归不适用于数据——特别是考虑到您对预测样本外的概率感兴趣。逻辑将对自变量对因变量从零变为一的概率的贡献进行建模，因为变量是连续的且被截断，所以需要不同的规范

我认为你关于混合效应的后一种直觉是好的。由于您的观察结果是嵌套的，即，

US

，因此多级模型，或者在本例中是分层线性模型，可能是数据的最佳规范。对于这种类型的建模，最好的R包是

multively

和

nlme

，这两个包都有很好的介绍。您可能特别感兴趣的是从第26页开始的关于多级建模的数据操作的讨论。

我建议您研究弹性网之类的惩罚回归。弹性网络用于文本挖掘，其中每列表示单个单词的存在或不存在，可能有成千上万个变量，这与您的问题类似。从R开始的一个好地方是

glmnet

软件包及其附带的JSS论文：。

嗨，埃里克，如果你有100000个观察值，并且正在用20000个系数拟合回归，那么你对它的拟合过度了，我怀疑它是否能很好地预测样本外的数据。克服这个问题的一种方法是使用相关的“属性”对每个城市进行编码。例如，除了一些地理信息外，您还可以使用人口普查数据中的收入、农村/城市、人口统计等。这将使您的模型保持简洁，并消除嵌套变量问题。如果你能对你试图预测的东西有更多的了解，我可以推荐属性。拉姆纳特