Algorithm 如何决定转换为分类变量或保持它为数字?

Algorithm 如何决定转换为分类变量或保持它为数字?,algorithm,data-science,categorical-data,Algorithm,Data Science,Categorical Data,这可能是一个基本的或琐碎的问题,可能很简单。尽管如此,我还是想通过这个问题一劳永逸地消除我的疑虑 以著名的泰坦尼克号资料中的乘客舱为例。从功能上讲,它确实是一个分类数据,因此将其转换为分类变量是非常有意义的。根据我的理解,算法倾向于看到特定于该类的模式。但同时,如果您将其视为数字变量,则它也可能表示决策树的范围。说一等舱和二等舱之间的旅客 看起来两者都是正确的,并且都会以不同的方式影响机器学习算法的输出 哪一个是合适的,是否有广泛的讨论?我们是否应该使用诸如数字之类的模糊变量及其副本作为分类变量

这可能是一个基本的或琐碎的问题,可能很简单。尽管如此,我还是想通过这个问题一劳永逸地消除我的疑虑

以著名的泰坦尼克号资料中的乘客舱为例。从功能上讲,它确实是一个分类数据,因此将其转换为分类变量是非常有意义的。根据我的理解,算法倾向于看到特定于该类的模式。但同时,如果您将其视为数字变量,则它也可能表示决策树的范围。说一等舱和二等舱之间的旅客

看起来两者都是正确的,并且都会以不同的方式影响机器学习算法的输出


哪一个是合适的,是否有广泛的讨论?我们是否应该使用诸如数字之类的模糊变量及其副本作为分类变量,这可能被证明是一种揭示更多模式的技术?

我想这取决于您是否愿意将连续的
PassengerClass
变量解释为“乘客等级每增加一个单位,乘客的生存可能性就会上升/下降X%,”与分类(系数)
PassengerClass
as相比,“第2组和第3组(例如,将头等舱乘客作为基本组)的生存可能性分别高出X%和Y%,而不是基本组,保持所有其他参数不变。”


<> P> >我认为变量如<代码> PassengerClass <代码>几乎是“治疗组”。是的,我想你可以把它解释为连续的,但是我认为考虑每个类的独特效果更为有意义,比如“给药的人和不给药的人”。“-您可以很容易地将处于较高级别(例如2或3)的影响与处于最常见的级别(1)的影响进行比较,1将再次被忽略。

我想您是否愿意将连续的
PassengerClass
变量解释为“乘客等级每增加一个单位,乘客的生存可能性就会上升/下降X%,”与分类(系数)
PassengerClass
as相比,“第2组和第3组(例如,将头等舱乘客作为基本组)的生存可能性分别高出X%和Y%,而不是基本组,保持所有其他参数不变。”


<> P> >我认为变量如<代码> PassengerClass <代码>几乎是“治疗组”。是的,我想你可以把它解释为连续的,但是我认为考虑每个类的独特效果更为有意义,比如“给药的人和不给药的人”。“-你可以很容易地将处于更高等级(如2或3)的影响与处于最常见的等级(1)的影响进行比较,1同样会被忽略。

将范畴概念映射到数值的问题是,某些算法(如神经网络)会将值本身解释为有意义,也就是说,如果将值1,2,3分配给乘客等级,则会得到不同的结果,例如0,1,2或3,2,1。乘客等级和数量之间的对应关系纯粹是常规的,不一定传达任何额外的含义


有人可能会说,数字越小,这个类就越“好”,然而,仍然很难将其解释为“第一类是第二类的两倍”,除非你定义一些“善”的度量,使数字之间的关系成为“1”和“2”合理。

将分类概念映射为数值的问题在于,某些算法(例如神经网络)会将值本身解释为具有意义,即,如果将值1,2,3分配给乘客类别,则会得到不同的结果,例如0,1,2或3,2,1。乘客等级和数量之间的对应关系纯粹是常规的,不一定传达任何额外的含义


有人可能会说,数字越小,类别就越“好”,但是,仍然很难将其解释为“第一类的质量是第二类的两倍”,除非你定义了某种“善”的度量,这将使数字“1”和“2”之间的关系变得合理。

在本例中,你的分类数据是有序的——这意味着你可以对分类进行排序(例如,从最佳适应到最差),但它们仍然是分类。无论您如何标记它们,都没有关于类别之间相对距离的实际信息。您可以将它们放在表格中,但不能(正确地)放在数字行上。在这种情况下,通常最好将分类数据视为独立的类别。

在本例中,分类数据是有序的-这意味着您可以对类别进行排序(例如,从最佳适应到最差),但它们仍然是类别。无论您如何标记它们,都没有关于类别之间相对距离的实际信息。您可以将它们放在表格中,但不能(正确地)放在数字行上。在这样的情况下,最好把你的分类数据当作独立的类别。

我总是想知道我是否考虑一个变量数字或因子的问题是:考虑数据集中出现的中间值是否有意义?也就是说,你考虑第1.3类是有意义的吗?如果答案是肯定的,那么把它看作是数字,如果不是,作为一个因素。我总是想知道我是否考虑一个变量的数值或因素是:考虑在数据集中出现的中间值是有意义的吗?也就是说,你考虑第1.3类是有意义的吗?如果答案是肯定的,那么把它看作是数字,如果不是,我完全同意这个答案。数据科学家如此受欢迎的一个重要原因是,现实世界的分析需要不断做出这种判断