Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/asp.net-mvc/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 机器学习中的标称值数据集_Machine Learning_Data Mining - Fatal编程技术网

Machine learning 机器学习中的标称值数据集

Machine learning 机器学习中的标称值数据集,machine-learning,data-mining,Machine Learning,Data Mining,与实数或布尔值相比,使用标称值作为机器学习的特征向量子集的最佳方法是什么 我是否应该将每个标称值映射到实际值 例如,如果我想让我的程序学习web服务用户的预测模型,其输入功能可能包括 {性别(布尔值)、年龄(真实值)、工作(名义值)} 其中因变量可能是网站登录次数 可变作业可能是以下作业之一: {程序员、艺术家、公务员……} 我是否应该将程序员映射到0,将艺术家映射到1等等?如果需要,请执行一次热编码 如果您的数据具有分类属性,建议您使用一种算法,该算法可以很好地处理此类数据,而无需进行编码,例

与实数或布尔值相比,使用标称值作为机器学习的特征向量子集的最佳方法是什么

我是否应该将每个标称值映射到实际值

例如,如果我想让我的程序学习web服务用户的预测模型,其输入功能可能包括

{性别(布尔值)、年龄(真实值)、工作(名义值)}

其中因变量可能是网站登录次数

可变作业可能是以下作业之一:

{程序员、艺术家、公务员……}


我是否应该将程序员映射到0,将艺术家映射到1等等?

如果需要,请执行一次热编码


如果您的数据具有分类属性,建议您使用一种算法,该算法可以很好地处理此类数据,而无需进行编码,例如决策树和随机森林。

如果您阅读了《带火花的机器学习》一书,作者 写道


范畴特征

分类特征不能作为原始形式的输入,因为它们不是 数量;相反,它们是变量可以接受的一组可能值的成员。在前面提到的示例中,用户职业是一个分类变量,可以表示student、programmer等的值

:

要将分类变量转换为数值表示,我们可以使用 常见的方法称为1-of-k编码。一种方法,例如k中的1编码 需要以对机器有意义的方式表示标称变量 学习任务。序数变量可能以原始形式使用,但通常是 以与标称变量相同的方式编码

:


我也有同样的想法

我认为,如果有一个有意义的(精心设计的)转换函数可以将分类(名义)值映射到实际值,我也可以使用只接受数值向量的学习算法

事实上,我做过一些项目,我必须这样做 没有就学习系统的绩效提出任何问题

有人投票反对我的问题,
请取消评估。

没有内在的理由将类别编码为机器学习算法的数字。此外,数字的顺序可能会让你或其他人感到困惑,以为它有某种意义。在下列问题中,请尝试更仔细地设置格式。谢谢您的建议。在考虑分类属性时,我可以不将基于神经网络的算法应用于我的问题吗?我可能应该使用决策树而不是神经网络。但我怀疑将实际值映射到分类特征可能会导致相关性错误近似值。例如,将0映射到教师,将10映射到程序员可能会产生错误的假设,即作业和权重相互关联。