Machine learning 一个热编码是否会导致功能不平衡的问题？_Machine Learning_Scikit Learn_Data Mining_One Hot Encoding_Feature Engineering

Machine learning 一个热编码是否会导致功能不平衡的问题？

machine-learning scikit-learn

Machine learning 一个热编码是否会导致功能不平衡的问题？,machine-learning,scikit-learn,data-mining,one-hot-encoding,feature-engineering,Machine Learning,Scikit Learn,Data Mining,One Hot Encoding,Feature Engineering,我们知道，在数据挖掘中，我们通常需要一个热编码来编码分类特征，因此，一个分类特征将被编码为几个0/1特征有一个特例让我困惑：现在我的数据集中有一个分类特征和一个数字特征。我将分类特征编码为300个新的0/1特征，然后使用MinMaxScaler规范化数字特征，因此，我所有的特征值都在0到1之间。但可疑的现象是，分类特征和数字特征的比率似乎从1:1变为300:1 我的编码方法正确吗？这让我对一个热门的编码产生了怀疑，我认为这可能会导致功能不平衡的问题有人能告诉我真相吗？任何话都将不胜感激！谢

我们知道，在数据挖掘中，我们通常需要一个热编码来编码分类特征，因此，一个分类特征将被编码为几个0/1特征

有一个特例让我困惑：现在我的数据集中有一个分类特征和一个数字特征。我将分类特征编码为300个新的0/1特征，然后使用MinMaxScaler规范化数字特征，因此，我所有的特征值都在0到1之间。但可疑的现象是，分类特征和数字特征的比率似乎从1:1变为300:1

我的编码方法正确吗？这让我对一个热门的编码产生了怀疑，我认为这可能会导致功能不平衡的问题

有人能告诉我真相吗？任何话都将不胜感激！谢谢

由于每个记录只有一个类别，因此只有一个类别为1

有效地，通过这种预处理，分类特征的权重将仅为标准特征权重的2倍左右。2次，如果你考虑距离和对象的两个不同类别。< /P>

但从本质上说，你是对的：一个热编码并不是特别聪明。让程序运行在它们不支持的数据上是一种丑陋的黑客行为。当使用k-均值等算法时，情况会变得更糟，假设我们可以取平均值，并且需要最小化这些变量的平方误差。。。结果的统计值将是有限的。

谢谢，但我如何解决这个问题？我应该离散数值特征吗？不，这可能只会让事情变得更糟。考虑一些自定义逻辑的权重特性来解决问题。至少，你可以用0.5来降低编码特征的权重，理由如上所述。事实上，我不完全理解你上面所说的。你说分类特征的权重仅为标准特征权重的2倍。。但是如果我的分类特征有3000个不同的类别，那么权重会变成标准特征的3000倍吗？这正是我所担心的。不，还是在两点左右。做一个估计：给定两个点，一个属性和m个相同的公共类别。即使将其编码为m个二进制属性，预期的距离是多少？