Machine learning 一个热编码是否会导致功能不平衡的问题?

Machine learning 一个热编码是否会导致功能不平衡的问题?,machine-learning,scikit-learn,data-mining,one-hot-encoding,feature-engineering,Machine Learning,Scikit Learn,Data Mining,One Hot Encoding,Feature Engineering,我们知道,在数据挖掘中,我们通常需要一个热编码来编码分类特征,因此,一个分类特征将被编码为几个0/1特征 有一个特例让我困惑: 现在我的数据集中有一个分类特征和一个数字特征。我将分类特征编码为300个新的0/1特征,然后使用MinMaxScaler规范化数字特征,因此,我所有的特征值都在0到1之间。但可疑的现象是,分类特征和数字特征的比率似乎从1:1变为300:1 我的编码方法正确吗?这让我对一个热门的编码产生了怀疑,我认为这可能会导致功能不平衡的问题 有人能告诉我真相吗?任何话都将不胜感激!谢

我们知道,在数据挖掘中,我们通常需要一个热编码来编码分类特征,因此,一个分类特征将被编码为几个0/1特征

有一个特例让我困惑: 现在我的数据集中有一个分类特征和一个数字特征。我将分类特征编码为300个新的0/1特征,然后使用MinMaxScaler规范化数字特征,因此,我所有的特征值都在0到1之间。但可疑的现象是,分类特征和数字特征的比率似乎从1:1变为300:1

我的编码方法正确吗?这让我对一个热门的编码产生了怀疑,我认为这可能会导致功能不平衡的问题


有人能告诉我真相吗?任何话都将不胜感激!谢谢

由于每个记录只有一个类别,因此只有一个类别为1

有效地,通过这种预处理,分类特征的权重将仅为标准特征权重的2倍左右。2次,如果你考虑距离和对象的两个不同类别。< /P>
但从本质上说,你是对的:一个热编码并不是特别聪明。让程序运行在它们不支持的数据上是一种丑陋的黑客行为。当使用k-均值等算法时,情况会变得更糟,假设我们可以取平均值,并且需要最小化这些变量的平方误差。。。结果的统计值将是有限的。

谢谢,但我如何解决这个问题?我应该离散数值特征吗?不,这可能只会让事情变得更糟。考虑一些自定义逻辑的权重特性来解决问题。至少,你可以用0.5来降低编码特征的权重,理由如上所述。事实上,我不完全理解你上面所说的。你说分类特征的权重仅为标准特征权重的2倍。。但是如果我的分类特征有3000个不同的类别,那么权重会变成标准特征的3000倍吗?这正是我所担心的。不,还是在两点左右。做一个估计:给定两个点,一个属性和m个相同的公共类别。即使将其编码为m个二进制属性,预期的距离是多少?