R 用插入符号拟合二项glm

R 用插入符号拟合二项glm,r,glm,r-caret,R,Glm,R Caret,我有投票数据,以结果A计数和结果B计数的形式(只有两种结果)。我使用的是glm二项式模型族的公式,如下所示:glm用于r()中的比例数据,y变量为: cbind (OutcomeA, OutcomeB) 我想使用插入符号包进行一些交叉验证,并通常出于比较目的处理输出,如下所示: 我的想法是正确的,我可以使用结果A的投票作为“y”变量,使用总选民投票率(即结果A+结果B)作为权重变量?谢谢 (编辑)(人工)数据如下所示: OutcomeA OutcomeB X1 X2 X3 X

我有投票数据,以结果A计数和结果B计数的形式(只有两种结果)。我使用的是glm二项式模型族的公式,如下所示:glm用于r()中的比例数据,y变量为:

cbind (OutcomeA, OutcomeB)
我想使用插入符号包进行一些交叉验证,并通常出于比较目的处理输出,如下所示:

我的想法是正确的,我可以使用结果A的投票作为“y”变量,使用总选民投票率(即结果A+结果B)作为权重变量?谢谢

(编辑)(人工)数据如下所示:

OutcomeA OutcomeB   X1   X2   X3   X4
    1234     2345 0.23 0.34 0.34 0.45
    2345     2312 0.55 0.57 0.58 0.58
    3423     1234 0.45 0.88 0.69 0.12
...
结果A是赞成票的数量,结果B是反对票的数量

我想通过插入符号在glm中使用二项族模型,将“数量”结果a/(结果a+结果B)建模为X1、X2、X3和X4的函数


将数据拆分为培训和测试数据并不是这里的问题。

如果要对A的比率或百分比进行建模,可以使用线性回归,并将百分比作为结果变量(在将其输入方程式之前创建百分比)。你会得到一系列的系数,用y截距表示每个X变量对y的影响

目前,您的数据不是二项式的,这将需要一个二元结果,是否,a或B,赢或输。转换成比率或百分比意味着它也不是泊松,需要一个简单的计数,一个单数

如果您的目标是预测百分比,我将在新列
(a/(a+B)
中创建百分比,并使用新列作为结果,使用传统的线性回归:


modI认为你要问的是如何将你的数据分成两个可能的结果的训练集。其中只有两个A作为一组,另一组将是总减A,在本例中就是B。如果你的结果存在极端差异,你只需要对训练和测试数据使用加权方法两个变量中每个变量的观察次数。即使你有足够大的数据,这也可能无关紧要。如果我误解了你的意图,请重新表述问题或显示更多数据,我会尽力提供更多帮助。谢谢。我稍微扩展了问题。如果结果是概率,你可以在中使用权重参数glm()。如果结果是概率的话,我建议不要使用标准的lm()。我也不会使用'lm()对于概率。但是问题是模糊的,比如比例,它肯定不是一个概率,它可以用一个直接的线性回归来建模。但是问题是关于在glm中使用二项式族,这意味着完全不同的东西。我在中回答了两种方法来涵盖这两个基数…不是beca我没有把握。