Python 具有缺失值的分类数据的降维

Python 具有缺失值的分类数据的降维,python,r,statistics,Python,R,Statistics,我有一个回归模型,其中因变量是连续的,但90%的自变量是分类的(有序和无序),大约30%的记录缺少值(更糟糕的是,它们是随机缺失的,没有任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,对应分析基本上是频率表主成分分析的一种变体)。我还要补充一点,数据集是中等规模的500000个观测值,包含200个变量。我有两个问题 对于分类

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类的(有序和无序),大约30%的记录缺少值(更糟糕的是,它们是随机缺失的,没有任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规格,因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,对应分析基本上是频率表主成分分析的一种变体)。我还要补充一点,数据集是中等规模的500000个观测值,包含200个变量。我有两个问题

  • 对于分类数据的降维和稳健插补(我认为第一个问题是插补,然后是降维),是否有一个很好的统计参考
  • 这与上述问题的实现有关。我之前广泛使用了R,倾向于对连续变量大量使用transcan和impute函数,并使用一种变异的tree方法来插补分类值。我对Python有一定的了解,因此,如果有什么好的东西用于此目的,我将使用它。任何python或R中的心理状态指针将非常有用。 多谢各位

  • 关于分类数据的插补,我建议检查该软件包。还请看一看该软件包,它解释了如何插补多元分类数据。不完整多元数据的多重插补的另一个软件包是。Amelia在处理顺序变量和名义变量方面有一些有限的能力


    至于分类数据的降维(即将变量排列到同质聚类中的一种方法),我建议使用这种方法,可以使聚类的同质性最大化的潜在变量。类似于主成分分析(PCA)中的方法在因子分析中,MCA解决方案也可以旋转,以增加成分的简单性。旋转背后的想法是找到与旋转成分更清晰一致的变量子集。这意味着最大化成分的简单性有助于因子解释和变量聚类。在R中,MCA方法是包括在包装中,以及(至少).至于FactoMineR,如果您将其作为Rcmdr软件包已建议的菜单的一个额外菜单添加,您可以通过图形界面使用它。您说,安装

    45%的数据至少有一个缺失值。这令人印象深刻。我会首先查看是否没有模式。您说它们是随机缺失的。您测试过MA吗R?您是否测试过子组的MAR

    由于不了解您的数据,我会首先查看是否存在许多缺失值的情况,并查看是否有理论或实际原因将其排除在外。实际原因是数据的生成。可能是没有很好地观察到这些数据,生成数据的机器没有一直转动,调查没有涵盖所有c例如,你有关于当前职业的调查数据,但部分受访者已退休。因此,他们必须(系统)缺失。你不能用某些计算值替换这些数据


    也许您可以用full从案例中切掉切片,并查看数据生成的条件。

    谢谢。这非常有用。您好,现在找不到演示文稿的链接。
    鼠标
    软件包是404now@Srinath甘尼什修正