Python 具有缺失值的分类数据的降维_Python_R_Statistics

Python 具有缺失值的分类数据的降维

python r statistics

Python 具有缺失值的分类数据的降维,python,r,statistics,Python,R,Statistics,我有一个回归模型，其中因变量是连续的，但90%的自变量是分类的（有序和无序），大约30%的记录缺少值（更糟糕的是，它们是随机缺失的，没有任何模式，也就是说，超过45%的数据至少有一个缺失值）。没有先验理论来选择模型的规格，因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法，但我不知道分类数据的类似静态文献（可能除了作为对应分析的一部分，对应分析基本上是频率表主成分分析的一种变体）。我还要补充一点，数据集是中等规模的500000个观测值，包含200个变量。我有两个问题对于分类

我有一个回归模型，其中因变量是连续的，但90%的自变量是分类的（有序和无序），大约30%的记录缺少值（更糟糕的是，它们是随机缺失的，没有任何模式，也就是说，超过45%的数据至少有一个缺失值）。没有先验理论来选择模型的规格，因此运行回归之前的关键任务之一是降维。虽然我知道连续变量降维的几种方法，但我不知道分类数据的类似静态文献（可能除了作为对应分析的一部分，对应分析基本上是频率表主成分分析的一种变体）。我还要补充一点，数据集是中等规模的500000个观测值，包含200个变量。我有两个问题

对于分类数据的降维和稳健插补（我认为第一个问题是插补，然后是降维），是否有一个很好的统计参考

这与上述问题的实现有关。我之前广泛使用了R，倾向于对连续变量大量使用transcan和impute函数，并使用一种变异的tree方法来插补分类值。我对Python有一定的了解，因此，如果有什么好的东西用于此目的，我将使用它。任何python或R中的心理状态指针将非常有用。多谢各位

关于分类数据的插补，我建议检查该软件包。还请看一看该软件包，它解释了如何插补多元分类数据。不完整多元数据的多重插补的另一个软件包是。Amelia在处理顺序变量和名义变量方面有一些有限的能力

至于分类数据的降维（即将变量排列到同质聚类中的一种方法），我建议使用这种方法，可以使聚类的同质性最大化的潜在变量。类似于主成分分析（PCA）中的方法在因子分析中，MCA解决方案也可以旋转，以增加成分的简单性。旋转背后的想法是找到与旋转成分更清晰一致的变量子集。这意味着最大化成分的简单性有助于因子解释和变量聚类。在R中，MCA方法是包括在包装中，以及（至少）.至于FactoMineR，如果您将其作为Rcmdr软件包已建议的菜单的一个额外菜单添加，您可以通过图形界面使用它。您说，安装

45%的数据至少有一个缺失值。这令人印象深刻。我会首先查看是否没有模式。您说它们是随机缺失的。您测试过MA吗R？您是否测试过子组的MAR

由于不了解您的数据，我会首先查看是否存在许多缺失值的情况，并查看是否有理论或实际原因将其排除在外。实际原因是数据的生成。可能是没有很好地观察到这些数据，生成数据的机器没有一直转动，调查没有涵盖所有c例如，你有关于当前职业的调查数据，但部分受访者已退休。因此，他们必须（系统）缺失。你不能用某些计算值替换这些数据

也许您可以用full从案例中切掉切片，并查看数据生成的条件。

谢谢。这非常有用。您好，现在找不到演示文稿的链接。

鼠标

软件包是404now@Srinath甘尼什修正