Machine learning 机器学习中的标称值数据集_Machine Learning_Data Mining

Machine learning 机器学习中的标称值数据集

machine-learning

Machine learning 机器学习中的标称值数据集,machine-learning,data-mining,Machine Learning,Data Mining,与实数或布尔值相比，使用标称值作为机器学习的特征向量子集的最佳方法是什么我是否应该将每个标称值映射到实际值例如，如果我想让我的程序学习web服务用户的预测模型，其输入功能可能包括 {性别（布尔值）、年龄（真实值）、工作（名义值）} 其中因变量可能是网站登录次数可变作业可能是以下作业之一： {程序员、艺术家、公务员……} 我是否应该将程序员映射到0，将艺术家映射到1等等？如果需要，请执行一次热编码如果您的数据具有分类属性，建议您使用一种算法，该算法可以很好地处理此类数据，而无需进行编码，例

与实数或布尔值相比，使用标称值作为机器学习的特征向量子集的最佳方法是什么

我是否应该将每个标称值映射到实际值

例如，如果我想让我的程序学习web服务用户的预测模型，其输入功能可能包括

{性别（布尔值）、年龄（真实值）、工作（名义值）}

其中因变量可能是网站登录次数

可变作业可能是以下作业之一：

{程序员、艺术家、公务员……}

我是否应该将程序员映射到0，将艺术家映射到1等等？

如果需要，请执行一次热编码

如果您的数据具有分类属性，建议您使用一种算法，该算法可以很好地处理此类数据，而无需进行编码，例如决策树和随机森林。

如果您阅读了《带火花的机器学习》一书，作者写道

范畴特征

分类特征不能作为原始形式的输入，因为它们不是数量；相反，它们是变量可以接受的一组可能值的成员。在前面提到的示例中，用户职业是一个分类变量，可以表示student、programmer等的值

要将分类变量转换为数值表示，我们可以使用常见的方法称为1-of-k编码。一种方法，例如k中的1编码需要以对机器有意义的方式表示标称变量学习任务。序数变量可能以原始形式使用，但通常是以与标称变量相同的方式编码

我也有同样的想法

我认为，如果有一个有意义的（精心设计的）转换函数可以将分类（名义）值映射到实际值，我也可以使用只接受数值向量的学习算法

事实上，我做过一些项目，我必须这样做没有就学习系统的绩效提出任何问题

有人投票反对我的问题，

请取消评估。

没有内在的理由将类别编码为机器学习算法的数字。此外，数字的顺序可能会让你或其他人感到困惑，以为它有某种意义。在下列问题中，请尝试更仔细地设置格式。谢谢您的建议。在考虑分类属性时，我可以不将基于神经网络的算法应用于我的问题吗？我可能应该使用决策树而不是神经网络。但我怀疑将实际值映射到分类特征可能会导致相关性错误近似值。例如，将0映射到教师，将10映射到程序员可能会产生错误的假设，即作业和权重相互关联。