Algorithm 如何决定转换为分类变量或保持它为数字？_Algorithm_Data Science_Categorical Data

Algorithm 如何决定转换为分类变量或保持它为数字？

algorithm

Algorithm 如何决定转换为分类变量或保持它为数字？,algorithm,data-science,categorical-data,Algorithm,Data Science,Categorical Data,这可能是一个基本的或琐碎的问题，可能很简单。尽管如此，我还是想通过这个问题一劳永逸地消除我的疑虑以著名的泰坦尼克号资料中的乘客舱为例。从功能上讲，它确实是一个分类数据，因此将其转换为分类变量是非常有意义的。根据我的理解，算法倾向于看到特定于该类的模式。但同时，如果您将其视为数字变量，则它也可能表示决策树的范围。说一等舱和二等舱之间的旅客看起来两者都是正确的，并且都会以不同的方式影响机器学习算法的输出哪一个是合适的，是否有广泛的讨论？我们是否应该使用诸如数字之类的模糊变量及其副本作为分类变量

这可能是一个基本的或琐碎的问题，可能很简单。尽管如此，我还是想通过这个问题一劳永逸地消除我的疑虑

以著名的泰坦尼克号资料中的乘客舱为例。从功能上讲，它确实是一个分类数据，因此将其转换为分类变量是非常有意义的。根据我的理解，算法倾向于看到特定于该类的模式。但同时，如果您将其视为数字变量，则它也可能表示决策树的范围。说一等舱和二等舱之间的旅客

看起来两者都是正确的，并且都会以不同的方式影响机器学习算法的输出

哪一个是合适的，是否有广泛的讨论？我们是否应该使用诸如数字之类的模糊变量及其副本作为分类变量，这可能被证明是一种揭示更多模式的技术？

我想这取决于您是否愿意将连续的

PassengerClass

变量解释为“乘客等级每增加一个单位，乘客的生存可能性就会上升/下降X%，”与分类（系数）

PassengerClass

as相比，“第2组和第3组（例如，将头等舱乘客作为基本组）的生存可能性分别高出X%和Y%，而不是基本组，保持所有其他参数不变。”

<> P> >我认为变量如<代码> PassengerClass <代码>几乎是“治疗组”。是的，我想你可以把它解释为连续的，但是我认为考虑每个类的独特效果更为有意义，比如“给药的人和不给药的人”。“-您可以很容易地将处于较高级别（例如2或3）的影响与处于最常见的级别（1）的影响进行比较，1将再次被忽略。

我想您是否愿意将连续的

PassengerClass

变量解释为“乘客等级每增加一个单位，乘客的生存可能性就会上升/下降X%，”与分类（系数）

PassengerClass

as相比，“第2组和第3组（例如，将头等舱乘客作为基本组）的生存可能性分别高出X%和Y%，而不是基本组，保持所有其他参数不变。”

<> P> >我认为变量如<代码> PassengerClass <代码>几乎是“治疗组”。是的，我想你可以把它解释为连续的，但是我认为考虑每个类的独特效果更为有意义，比如“给药的人和不给药的人”。“-你可以很容易地将处于更高等级（如2或3）的影响与处于最常见的等级（1）的影响进行比较，1同样会被忽略。

将范畴概念映射到数值的问题是，某些算法（如神经网络）会将值本身解释为有意义，也就是说，如果将值1,2,3分配给乘客等级，则会得到不同的结果，例如0,1,2或3,2,1。乘客等级和数量之间的对应关系纯粹是常规的，不一定传达任何额外的含义

有人可能会说，数字越小，这个类就越“好”，然而，仍然很难将其解释为“第一类是第二类的两倍”，除非你定义一些“善”的度量，使数字之间的关系成为“1”和“2”合理。

将分类概念映射为数值的问题在于，某些算法（例如神经网络）会将值本身解释为具有意义，即，如果将值1,2,3分配给乘客类别，则会得到不同的结果，例如0,1,2或3,2,1。乘客等级和数量之间的对应关系纯粹是常规的，不一定传达任何额外的含义

有人可能会说，数字越小，类别就越“好”，但是，仍然很难将其解释为“第一类的质量是第二类的两倍”，除非你定义了某种“善”的度量，这将使数字“1”和“2”之间的关系变得合理。

在本例中，你的分类数据是有序的——这意味着你可以对分类进行排序（例如，从最佳适应到最差），但它们仍然是分类。无论您如何标记它们，都没有关于类别之间相对距离的实际信息。您可以将它们放在表格中，但不能（正确地）放在数字行上。在这种情况下，通常最好将分类数据视为独立的类别。

在本例中，分类数据是有序的-这意味着您可以对类别进行排序（例如，从最佳适应到最差），但它们仍然是类别。无论您如何标记它们，都没有关于类别之间相对距离的实际信息。您可以将它们放在表格中，但不能（正确地）放在数字行上。在这样的情况下，最好把你的分类数据当作独立的类别。

我总是想知道我是否考虑一个变量数字或因子的问题是：考虑数据集中出现的中间值是否有意义？也就是说，你考虑第1.3类是有意义的吗？如果答案是肯定的，那么把它看作是数字，如果不是，作为一个因素。我总是想知道我是否考虑一个变量的数值或因素是：考虑在数据集中出现的中间值是有意义的吗？也就是说，你考虑第1.3类是有意义的吗？如果答案是肯定的，那么把它看作是数字，如果不是，我完全同意这个答案。数据科学家如此受欢迎的一个重要原因是，现实世界的分析需要不断做出这种判断