Machine learning 分类变量'；降维_Machine Learning_Dummy Variable_Dimensionality Reduction_Feature Engineering

Machine learning 分类变量'；降维

machine-learning

Machine learning 分类变量'；降维,machine-learning,dummy-variable,dimensionality-reduction,feature-engineering,Machine Learning,Dummy Variable,Dimensionality Reduction,Feature Engineering,我有一个只包含3列的制造数据集 Column 1. WorkStationID Column 2. ProductID Column 3. Error(1 or 0) 我试图将错误（1或0）预测为一个分类问题。但有50个唯一的工作站和130个唯一的productID，所以当我将它们转换为虚拟变量时，数据帧变得巨大所以，我的问题是，降维技术是否适用于虚拟变量？事实上，我只有两个变量（工作站和产品），听起来没有必要做任何缩减。或者任何特征重要性技术都是合适的？如果显示5个不同的工作站无效，这意味

我有一个只包含3列的制造数据集

Column 1. WorkStationID
Column 2. ProductID
Column 3. Error(1 or 0)

我试图将错误（1或0）预测为一个分类问题。但有50个唯一的工作站和130个唯一的productID，所以当我将它们转换为虚拟变量时，数据帧变得巨大

所以，我的问题是，降维技术是否适用于虚拟变量？事实上，我只有两个变量（工作站和产品），听起来没有必要做任何缩减。或者任何特征重要性技术都是合适的？如果显示5个不同的工作站无效，这意味着什么

预先感谢

< P>如果你不需要太多的哑变量，需要考虑的是二进制编码。在很多情况下，当我遇到这样的问题时，我选择了一个，而且大多数时候效果都很好，因此对你来说也许值得一试

假设您有9个功能，将它们从1标记到9，然后对它们进行二进制编码，您将得到：

cat 1 - 0 0 0 1
cat 2 - 0 0 1 0
cat 3 - 0 0 1 1
cat 4 - 0 1 0 0 
cat 5 - 0 1 0 1
cat 6 - 0 1 1 0
cat 7 - 0 1 1 1
cat 8 - 1 0 0 0
cat 9 - 1 0 0 1

在您的情况下，如果您有50个工作站，您可以将49个功能（一个热功能）减少到6个功能（二进制编码，因为2次幂6是64）

完成此操作后，您还可以尝试使用Will Koehrsen提供的库。您可以绘制特征重要性图，以查看是否可以进一步消除不会为预测增加价值的特征。也许你可以从6个变量减少到更少的变量

它通常会给出一个漂亮的条形图，帮助我们直观地了解不同功能的重要性，并让我们进一步了解这些功能

PS:这是您提出的开放式问题，我给出的答案基于我的经验。它没有特别的“对或错”，您只能尝试它，并知道它是否对您的用例有利。

您最终想要实现什么？为什么您需要将分类特征转换为一个热编码？我试图根据工作站和productID预测错误（1或0），我编辑了这个问题，谢谢。感谢Ankur的回答，例如，如果20个plantID的特征重要性非常低，这意味着plantID变量不重要，这意味着什么？实际上，我在寻找虚拟变量特征重要性背后的逻辑，或者虚拟变量降维的意义