Testing sas-simpson悖论独立性的卡方检验

Testing sas-simpson悖论独立性的卡方检验,testing,aggregate,paradox,chi-squared,Testing,Aggregate,Paradox,Chi Squared,我想知道学生在某项考试中的表现与辍学率之间是否存在关系。我有一个2×2矩阵,其中变量级别为test,取值级别1和级别2,变量辍学值为not active和active。(可以说1级=通过测试,2级=未通过测试) 我可以看出,我对“辛普森悖论”这个词有一个问题,因为我知道,学院里的每一种教育都有一个很高的p值,这表明考试水平和辍学率之间没有关系。但当我对数据进行分组并对全体教员进行分析时,我得到了一个较低的p值,表明变量之间存在着显著的关系。?? 我曾试图阅读辛普森悖论,但我似乎没有得到如何处理这

我想知道学生在某项考试中的表现与辍学率之间是否存在关系。我有一个2×2矩阵,其中变量级别为test,取值级别1和级别2,变量辍学值为not active和active。(可以说1级=通过测试,2级=未通过测试)

我可以看出,我对“辛普森悖论”这个词有一个问题,因为我知道,学院里的每一种教育都有一个很高的p值,这表明考试水平和辍学率之间没有关系。但当我对数据进行分组并对全体教员进行分析时,我得到了一个较低的p值,表明变量之间存在着显著的关系。?? 我曾试图阅读辛普森悖论,但我似乎没有得到如何处理这个问题的信息? 我读过一篇文章,说不应该对聚合数据执行测试,但这不可能是真的?

我真的希望有人能帮助我


对于标有education 2和education 5的交叉选项卡,您的单元格值小于5,这违反了运行卡方检验的假设。关于卡方检验是否具有足够的稳健性以经受住这些限制,还有很多争论,但我仍然会重新考虑您的分组方法。

由于“教员”中的病例总数较高,数据足以反驳独立性假设,因此p值较低。当案例数量较少时(您的教育1至教育5表),没有足够的数据显示重要性。这里较高的p值只是表示差异可能是偶然的


这不是辛普森悖论的一个例子。

在期望值小于5的交叉表中,我使用了Fishers精确检验中的p值。我想可以吧?你为什么要重新考虑分组方法?我不明白为什么我不能将数据分组?