Machine learning 分类变量';降维

Machine learning 分类变量';降维,machine-learning,dummy-variable,dimensionality-reduction,feature-engineering,Machine Learning,Dummy Variable,Dimensionality Reduction,Feature Engineering,我有一个只包含3列的制造数据集 Column 1. WorkStationID Column 2. ProductID Column 3. Error(1 or 0) 我试图将错误(1或0)预测为一个分类问题。但有50个唯一的工作站和130个唯一的productID,所以当我将它们转换为虚拟变量时,数据帧变得巨大 所以,我的问题是,降维技术是否适用于虚拟变量?事实上,我只有两个变量(工作站和产品),听起来没有必要做任何缩减。或者任何特征重要性技术都是合适的?如果显示5个不同的工作站无效,这意味

我有一个只包含3列的制造数据集

Column 1. WorkStationID
Column 2. ProductID
Column 3. Error(1 or 0)
我试图将错误(1或0)预测为一个分类问题。但有50个唯一的工作站和130个唯一的productID,所以当我将它们转换为虚拟变量时,数据帧变得巨大

所以,我的问题是,降维技术是否适用于虚拟变量?事实上,我只有两个变量(工作站和产品),听起来没有必要做任何缩减。或者任何特征重要性技术都是合适的?如果显示5个不同的工作站无效,这意味着什么


预先感谢

< P>如果你不需要太多的哑变量,需要考虑的是二进制编码。在很多情况下,当我遇到这样的问题时,我选择了一个,而且大多数时候效果都很好,因此对你来说也许值得一试

假设您有9个功能,将它们从1标记到9,然后对它们进行二进制编码,您将得到:

cat 1 - 0 0 0 1
cat 2 - 0 0 1 0
cat 3 - 0 0 1 1
cat 4 - 0 1 0 0 
cat 5 - 0 1 0 1
cat 6 - 0 1 1 0
cat 7 - 0 1 1 1
cat 8 - 1 0 0 0
cat 9 - 1 0 0 1
在您的情况下,如果您有50个工作站,您可以将49个功能(一个热功能)减少到6个功能(二进制编码,因为2次幂6是64)

完成此操作后,您还可以尝试使用Will Koehrsen提供的库。您可以绘制特征重要性图,以查看是否可以进一步消除不会为预测增加价值的特征。也许你可以从6个变量减少到更少的变量

它通常会给出一个漂亮的条形图,帮助我们直观地了解不同功能的重要性,并让我们进一步了解这些功能



PS:这是您提出的开放式问题,我给出的答案基于我的经验。它没有特别的“对或错”,您只能尝试它,并知道它是否对您的用例有利。

您最终想要实现什么?为什么您需要将分类特征转换为一个热编码?我试图根据工作站和productID预测错误(1或0),我编辑了这个问题,谢谢。感谢Ankur的回答,例如,如果20个plantID的特征重要性非常低,这意味着plantID变量不重要,这意味着什么?实际上,我在寻找虚拟变量特征重要性背后的逻辑,或者虚拟变量降维的意义