Machine learning 机器学习中的标称值数据集
与实数或布尔值相比,使用标称值作为机器学习的特征向量子集的最佳方法是什么 我是否应该将每个标称值映射到实际值 例如,如果我想让我的程序学习web服务用户的预测模型,其输入功能可能包括 {性别(布尔值)、年龄(真实值)、工作(名义值)} 其中因变量可能是网站登录次数 可变作业可能是以下作业之一: {程序员、艺术家、公务员……}Machine learning 机器学习中的标称值数据集,machine-learning,data-mining,Machine Learning,Data Mining,与实数或布尔值相比,使用标称值作为机器学习的特征向量子集的最佳方法是什么 我是否应该将每个标称值映射到实际值 例如,如果我想让我的程序学习web服务用户的预测模型,其输入功能可能包括 {性别(布尔值)、年龄(真实值)、工作(名义值)} 其中因变量可能是网站登录次数 可变作业可能是以下作业之一: {程序员、艺术家、公务员……} 我是否应该将程序员映射到0,将艺术家映射到1等等?如果需要,请执行一次热编码 如果您的数据具有分类属性,建议您使用一种算法,该算法可以很好地处理此类数据,而无需进行编码,例
我是否应该将程序员映射到0,将艺术家映射到1等等?如果需要,请执行一次热编码
如果您的数据具有分类属性,建议您使用一种算法,该算法可以很好地处理此类数据,而无需进行编码,例如决策树和随机森林。如果您阅读了《带火花的机器学习》一书,作者 写道
范畴特征 分类特征不能作为原始形式的输入,因为它们不是 数量;相反,它们是变量可以接受的一组可能值的成员。在前面提到的示例中,用户职业是一个分类变量,可以表示student、programmer等的值 : 要将分类变量转换为数值表示,我们可以使用 常见的方法称为1-of-k编码。一种方法,例如k中的1编码 需要以对机器有意义的方式表示标称变量 学习任务。序数变量可能以原始形式使用,但通常是 以与标称变量相同的方式编码 :
我也有同样的想法 我认为,如果有一个有意义的(精心设计的)转换函数可以将分类(名义)值映射到实际值,我也可以使用只接受数值向量的学习算法 事实上,我做过一些项目,我必须这样做 没有就学习系统的绩效提出任何问题 有人投票反对我的问题,
请取消评估。没有内在的理由将类别编码为机器学习算法的数字。此外,数字的顺序可能会让你或其他人感到困惑,以为它有某种意义。在下列问题中,请尝试更仔细地设置格式。谢谢您的建议。在考虑分类属性时,我可以不将基于神经网络的算法应用于我的问题吗?我可能应该使用决策树而不是神经网络。但我怀疑将实际值映射到分类特征可能会导致相关性错误近似值。例如,将0映射到教师,将10映射到程序员可能会产生错误的假设,即作业和权重相互关联。