SAS PROC逻辑-为什么拟合优度测试拒绝模型?

SAS PROC逻辑-为什么拟合优度测试拒绝模型?,sas,statistics,statistical-test,Sas,Statistics,Statistical Test,我正在使用SAS(9.2)中的PROC LOGISTIC为大学申请者数据集建模。目标变量为“登记的y/n”,我根据13个变量(指标、连续性和类别的混合)进行建模,包括:提交的申请数量、参加的活动数量、申请人年龄等 我使用了整个数据集的50%来训练模型,这给了我一个不到15000个观测值的样本量(用于训练) 当我运行PROC LOGISTIC时,输出报告大多数变量在模型的当前状态下非常显著 您的模型具有非常高的关联百分比(关联百分比=32.8%),只有56.7%的一致性。因此,你的模型的准确性并不

我正在使用SAS(9.2)中的PROC LOGISTIC为大学申请者数据集建模。目标变量为“登记的y/n”,我根据13个变量(指标、连续性和类别的混合)进行建模,包括:提交的申请数量、参加的活动数量、申请人年龄等

我使用了整个数据集的50%来训练模型,这给了我一个不到15000个观测值的样本量(用于训练)


当我运行PROC LOGISTIC时,输出报告大多数变量在模型的当前状态下非常显著

  • 您的模型具有非常高的关联百分比(关联百分比=32.8%),只有56.7%的一致性。因此,你的模型的准确性并不好c“0.729或72.9%的值不能真实反映您的模型。”c'值或AUC=(0.567+(0.328/2))。这意味着你的c值被高百分比的领带所偏移

  • 大量数据点导致的预测处于边界,即既不是0也不是1

  • 那么,你需要做什么:-

    您需要减少%ties,并尝试实现高一致性、高精度,从而获得可接受的GOF参数

    你如何改进你的模型

  • 我经常做的一件事是,像逐步或向后选择这样的常规操作失败,那就是使用
    自举
    。这是一种最简单、最稳健的算法,可帮助我们使用多个样本获取最相关的变量,从而有助于提高模型的准确性和稳定性

  • 如果
    BOOTSTRAPPING
    也失败,那么尝试
    机器学习技术
    ,如随机林、GBM等。随机林被认为是最稳健的分类算法之一

  • 如果个别算法也失败,请尝试堆叠。简单地结合多种分类算法的预测能力。注意:-当上述所有选项均已用尽时,请使用此选项


  • 希望这能有所帮助:-)

    我读到拟合优度测试在处理大型数据集时会有固有的问题,因此,根据文献,我选择忽略它们,而采用交叉验证方法,考虑p值、无效假设检验、ROC AUC统计,置信区间和最大重标R平方统计(Johnson和Wichern 1992)(Shmueli,Lin和Lucas Jr.2013)(Li 2013)

    您能发布输出吗?但这不是一个代码问题,它听起来像是方法或解释问题,因此它可能更适合stats.stackexchange.comHi@Reeza。你可能是对的。我已经添加了输出屏幕截图-感谢您的帮助。是的,这需要发布在stats.stackexchange.com上。很可能某个效应(或所有效应)在统计上具有显著性,但对模型的预测能力影响很小。特别是如果你有很多数据。
    /*Applicant_Factors_TRAIN: Single Factor*/
    proc logistic DATA=Applicant_Factors_TRAIN;
    MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
    run;