Python 具有缺失值的分类数据的降维
我有一个回归模型,其中因变量是连续的,但90%的自变量是分类的(有序和无序),大约30%的记录缺少值(更糟糕的是,它们是随机缺失的,没有任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,对应分析基本上是频率表主成分分析的一种变体)。我还要补充一点,数据集是中等规模的500000个观测值,包含200个变量。我有两个问题Python 具有缺失值的分类数据的降维,python,r,statistics,Python,R,Statistics,我有一个回归模型,其中因变量是连续的,但90%的自变量是分类的(有序和无序),大约30%的记录缺少值(更糟糕的是,它们是随机缺失的,没有任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,对应分析基本上是频率表主成分分析的一种变体)。我还要补充一点,数据集是中等规模的500000个观测值,包含200个变量。我有两个问题 对于分类
关于分类数据的插补,我建议检查该软件包。还请看一看该软件包,它解释了如何插补多元分类数据。不完整多元数据的多重插补的另一个软件包是。Amelia在处理顺序变量和名义变量方面有一些有限的能力
至于分类数据的降维(即将变量排列到同质聚类中的一种方法),我建议使用这种方法,可以使聚类的同质性最大化的潜在变量。类似于主成分分析(PCA)中的方法在因子分析中,MCA解决方案也可以旋转,以增加成分的简单性。旋转背后的想法是找到与旋转成分更清晰一致的变量子集。这意味着最大化成分的简单性有助于因子解释和变量聚类。在R中,MCA方法是包括在包装中,以及(至少).至于FactoMineR,如果您将其作为Rcmdr软件包已建议的菜单的一个额外菜单添加,您可以通过图形界面使用它。您说,安装45%的数据至少有一个缺失值。这令人印象深刻。我会首先查看是否没有模式。您说它们是随机缺失的。您测试过MA吗R?您是否测试过子组的MAR 由于不了解您的数据,我会首先查看是否存在许多缺失值的情况,并查看是否有理论或实际原因将其排除在外。实际原因是数据的生成。可能是没有很好地观察到这些数据,生成数据的机器没有一直转动,调查没有涵盖所有c例如,你有关于当前职业的调查数据,但部分受访者已退休。因此,他们必须(系统)缺失。你不能用某些计算值替换这些数据
也许您可以用full从案例中切掉切片,并查看数据生成的条件。谢谢。这非常有用。您好,现在找不到演示文稿的链接。
鼠标
软件包是404now@Srinath甘尼什修正