SAS PROC逻辑-为什么拟合优度测试拒绝模型？_Sas_Statistics_Statistical Test

SAS PROC逻辑-为什么拟合优度测试拒绝模型？

sas statistics

SAS PROC逻辑-为什么拟合优度测试拒绝模型？,sas,statistics,statistical-test,Sas,Statistics,Statistical Test,我正在使用SAS（9.2）中的PROC LOGISTIC为大学申请者数据集建模。目标变量为“登记的y/n”，我根据13个变量（指标、连续性和类别的混合）进行建模，包括：提交的申请数量、参加的活动数量、申请人年龄等我使用了整个数据集的50%来训练模型，这给了我一个不到15000个观测值的样本量（用于训练）当我运行PROC LOGISTIC时，输出报告大多数变量在模型的当前状态下非常显著您的模型具有非常高的关联百分比（关联百分比=32.8%），只有56.7%的一致性。因此，你的模型的准确性并不

我正在使用SAS（9.2）中的PROC LOGISTIC为大学申请者数据集建模。目标变量为“登记的y/n”，我根据13个变量（指标、连续性和类别的混合）进行建模，包括：提交的申请数量、参加的活动数量、申请人年龄等

我使用了整个数据集的50%来训练模型，这给了我一个不到15000个观测值的样本量（用于训练）

当我运行PROC LOGISTIC时，输出报告大多数变量在模型的当前状态下非常显著

您的模型具有非常高的关联百分比（关联百分比=32.8%），只有56.7%的一致性。因此，你的模型的准确性并不好c“0.729或72.9%的值不能真实反映您的模型。”c'值或AUC=（0.567+（0.328/2））。这意味着你的c值被高百分比的领带所偏移

大量数据点导致的预测处于边界，即既不是0也不是1

那么，你需要做什么：-

您需要减少%ties，并尝试实现高一致性、高精度，从而获得可接受的GOF参数

你如何改进你的模型

我经常做的一件事是，像逐步或向后选择这样的常规操作失败，那就是使用

自举

。这是一种最简单、最稳健的算法，可帮助我们使用多个样本获取最相关的变量，从而有助于提高模型的准确性和稳定性

如果

BOOTSTRAPPING

也失败，那么尝试

机器学习技术

，如随机林、GBM等。随机林被认为是最稳健的分类算法之一

如果个别算法也失败，请尝试堆叠。简单地结合多种分类算法的预测能力。注意：-当上述所有选项均已用尽时，请使用此选项

希望这能有所帮助：-）

我读到拟合优度测试在处理大型数据集时会有固有的问题，因此，根据文献，我选择忽略它们，而采用交叉验证方法，考虑p值、无效假设检验、ROC AUC统计，置信区间和最大重标R平方统计（Johnson和Wichern 1992）（Shmueli，Lin和Lucas Jr.2013）（Li 2013）

您能发布输出吗？但这不是一个代码问题，它听起来像是方法或解释问题，因此它可能更适合stats.stackexchange.comHi@Reeza。你可能是对的。我已经添加了输出屏幕截图-感谢您的帮助。是的，这需要发布在stats.stackexchange.com上。很可能某个效应（或所有效应）在统计上具有显著性，但对模型的预测能力影响很小。特别是如果你有很多数据。

/*Applicant_Factors_TRAIN: Single Factor*/
proc logistic DATA=Applicant_Factors_TRAIN;
MODEL Applicant_Enrolled(EVENT='1')= Total_campus_visits/ AGGREGATE SCALE = NONE LACKFIT RSQ;
run;