Encoding 回归分析中如何区分分类变量和序数变量？_Encoding_Machine Learning_Regression_Linear Regression_Categorical Data

Encoding 回归分析中如何区分分类变量和序数变量？

encoding machine-learning

Encoding 回归分析中如何区分分类变量和序数变量？,encoding,machine-learning,regression,linear-regression,categorical-data,Encoding,Machine Learning,Regression,Linear Regression,Categorical Data,我正在对有关房屋的数据进行线性回归分析。现在我有23个功能。其中一些显然是有序的（例如年份、房间数量、楼层）。有些功能是分类的，当编码为数字格式时，我对如何处理它们感到困惑。我对使用哪种编码方法犹豫不决：一种热编码（用于分类）或只是顺序映射（用于顺序数据）。我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码。同样很清楚的是，像条件这样的分类特征，其可能值为“旧的”、“翻新的”、“新的”，可以分别排序和编码为1、2、3 但我不确定如何对不太明显的特征进行编码。这些特征的本质并不是显而易见

我正在对有关房屋的数据进行线性回归分析。现在我有23个功能。其中一些显然是有序的（例如年份、房间数量、楼层）。有些功能是分类的，当编码为数字格式时，我对如何处理它们感到困惑。我对使用哪种编码方法犹豫不决：一种热编码（用于分类）或只是顺序映射（用于顺序数据）。我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码。同样很清楚的是，像条件这样的分类特征，其可能值为“旧的”、“翻新的”、“新的”，可以分别排序和编码为1、2、3

但我不确定如何对不太明显的特征进行编码。这些特征的本质并不是显而易见的，在某种程度上可以同时归因于顺序数据和分类数据。让我们看看这个例子：

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree

问题是：

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子（材料）：

从我的角度来看，这些数据可以按顺序排序和编码为1,2,3,4。简单的装甲比金属贵。金属比木头等更贵。但我在youtube上看过一个讲座，据说不按顺序编码功能，只是因为你看到了一些上升或下降的模式。这些模式可能是幻觉和错误的

另一个示例（internet连接类型）：

有些速度更快，有些速度比其他速度慢，但没有“明确的顺序”。如何处理这些“不清楚”的分类数据

如何区分分类数据和顺序数据？或者我只需要对非常简单的顺序变量（如“条件”）进行顺序编码，并将其余不清楚的变量作为分类变量和伪代码进行编码。

我想说，顺序变量是可以排序的，并且在值集之外的答案仍然有意义。好的例子是“同意”/“不同意”。你可以将它们映射到值1-5，甚至当你得到2.3时，你也知道它的意思：它比“同意”多一点。但对于“塑料”和“木材”来说，这完全没有意义——这是绝对的。

关于互联网连接类型。视情况而定。如果我们谈论的是速度，你可以对这些连接进行排序，那么将其视为有序连接可能是有意义的。但是，如果我们谈论的是调制解调器类型的流行程度，那么它只是一个分类变量，我想说的是，顺序变量是可以排序的，并且在值集之外进行回答仍然是有意义的。好的例子是“同意”/“不同意”。你可以将它们映射到值1-5，甚至当你得到2.3时，你也知道它的意思：它比“同意”多一点。但对于“塑料”和“木材”来说，这完全没有意义——这是绝对的。关于互联网连接类型。视情况而定。如果我们谈论的是速度，你可以对这些连接进行排序，那么将其视为有序连接可能是有意义的。但如果我们谈论的是现代类型的流行度，那么它只是一个分类变量

Plastic
Wood    
Metal
Armored

DSL
ADSL
SDSL
Cable
Broadband