Machine learning 将大量分类变量编码为输入数据

Machine learning 将大量分类变量编码为输入数据,machine-learning,neural-network,Machine Learning,Neural Network,当您处理数百个类别时,一个热编码听起来不是一个好主意,例如,其中一列是“first name”的数据集。对这类数据进行编码的最佳方法是什么?如果有大量的类别,分类算法就不能很好地工作。相反,有一种更好的方法可以做到这一点。对数据应用回归算法,然后对这些输出应用训练偏移。它会给你更好的结果 可以找到一个示例代码 我推荐散列技巧: 它计算成本低,易于使用,允许您指定维度,并且通常是分类的一个很好的基础 对于您的特定应用程序,我将散列特征值对,如('FirstName','John'),然后为散列值

当您处理数百个类别时,一个热编码听起来不是一个好主意,例如,其中一列是“first name”的数据集。对这类数据进行编码的最佳方法是什么?

如果有大量的类别,分类算法就不能很好地工作。相反,有一种更好的方法可以做到这一点。对数据应用回归算法,然后对这些输出应用训练偏移。它会给你更好的结果


可以找到一个示例代码

我推荐散列技巧:

它计算成本低,易于使用,允许您指定维度,并且通常是分类的一个很好的基础

对于您的特定应用程序,我将散列特征值对,如('FirstName','John'),然后为散列值增加bucket