R 如何处理具有大量级别的分类特征

R 如何处理具有大量级别的分类特征,r,categorical-data,R,Categorical Data,我正在研究R中具有维度的数据集 dim(adData) [1] 15844717 11 在11个功能中 一个特性是在15844717中具有273596(用作id的随机整数)唯一值 第二个特性是在15844717中具有884353(用作id的随机整数)唯一值 我的困惑在于是否将它们转换为因子,因为具有大量级别的分类变量将在建模时产生问题,或者请建议如何处理它们 我是数据科学的新手,以前从未在大型数据集上工作过。~300k一个变量的类别肯定会导致计算问题。我首先要退一步,检查这个变量的

我正在研究R中具有维度的数据集

dim(adData)
[1] 15844717       11
在11个功能中

一个特性是在15844717中具有273596(用作id的随机整数)唯一值

第二个特性是在15844717中具有884353(用作id的随机整数)唯一值

我的困惑在于是否将它们转换为因子,因为具有大量级别的分类变量将在建模时产生问题,或者请建议如何处理它们


我是数据科学的新手,以前从未在大型数据集上工作过。

~300k一个变量的类别肯定会导致计算问题。我首先要退一步,检查这个变量的性质及其与当前预测的相关性。如果不知道数据的来源,就很难给出具体的建议

如果它确实是一个分类变量,那么将ID作为数字变量将是愚蠢的,因为ID的规模和顺序可能没有意义

是否可以将级别分为较少但仍有意义的类别?

示例1:如果ID是美国的Zipcode,则可能有40000个唯一值。这些可以分为州或区域,将级别减少到50或更少

示例2:如果ID是来自电子商务站点的产品ID,则可以按产品类别或子类别对其进行分组。可以使用的不同值将少得多


另一个选择是检查每个类别的相对频率。如果有几个非常常见的类别,有数千个罕见的类别,您可以将常见的级别保留下来,并将罕见的级别分组到“其他”类别中。

数据来自电子商务网站。其中一个功能是广告站点名称,另一个是提供id。我将尝试根据相对频率组合它们。