R 如何处理具有大量级别的分类特征_R_Categorical Data

R 如何处理具有大量级别的分类特征

R 如何处理具有大量级别的分类特征,r,categorical-data,R,Categorical Data,我正在研究R中具有维度的数据集 dim(adData) [1] 15844717 11 在11个功能中一个特性是在15844717中具有273596（用作id的随机整数）唯一值第二个特性是在15844717中具有884353（用作id的随机整数）唯一值我的困惑在于是否将它们转换为因子，因为具有大量级别的分类变量将在建模时产生问题，或者请建议如何处理它们我是数据科学的新手，以前从未在大型数据集上工作过。~300k一个变量的类别肯定会导致计算问题。我首先要退一步，检查这个变量的

我正在研究R中具有维度的数据集

dim(adData)
[1] 15844717       11

在11个功能中

一个特性是在15844717中具有273596（用作id的随机整数）唯一值

第二个特性是在15844717中具有884353（用作id的随机整数）唯一值

我的困惑在于是否将它们转换为因子，因为具有大量级别的分类变量将在建模时产生问题，或者请建议如何处理它们

我是数据科学的新手，以前从未在大型数据集上工作过。

~300k一个变量的类别肯定会导致计算问题。我首先要退一步，检查这个变量的性质及其与当前预测的相关性。如果不知道数据的来源，就很难给出具体的建议

如果它确实是一个分类变量，那么将ID作为数字变量将是愚蠢的，因为ID的规模和顺序可能没有意义

是否可以将级别分为较少但仍有意义的类别？

示例1：如果ID是美国的Zipcode，则可能有40000个唯一值。这些可以分为州或区域，将级别减少到50或更少

示例2：如果ID是来自电子商务站点的产品ID，则可以按产品类别或子类别对其进行分组。可以使用的不同值将少得多

另一个选择是检查每个类别的相对频率。如果有几个非常常见的类别，有数千个罕见的类别，您可以将常见的级别保留下来，并将罕见的级别分组到“其他”类别中。

数据来自电子商务网站。其中一个功能是广告站点名称，另一个是提供id。我将尝试根据相对频率组合它们。