Encoding 回归分析中如何区分分类变量和序数变量?

Encoding 回归分析中如何区分分类变量和序数变量?,encoding,machine-learning,regression,linear-regression,categorical-data,Encoding,Machine Learning,Regression,Linear Regression,Categorical Data,我正在对有关房屋的数据进行线性回归分析。现在我有23个功能。其中一些显然是有序的(例如年份、房间数量、楼层)。有些功能是分类的,当编码为数字格式时,我对如何处理它们感到困惑。我对使用哪种编码方法犹豫不决:一种热编码(用于分类)或只是顺序映射(用于顺序数据)。 我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码。同样很清楚的是,像条件这样的分类特征,其可能值为“旧的”、“翻新的”、“新的”,可以分别排序和编码为1、2、3 但我不确定如何对不太明显的特征进行编码。这些特征的本质并不是显而易见

我正在对有关房屋的数据进行线性回归分析。现在我有23个功能。其中一些显然是有序的(例如年份、房间数量、楼层)。有些功能是分类的,当编码为数字格式时,我对如何处理它们感到困惑。我对使用哪种编码方法犹豫不决:一种热编码(用于分类)或只是顺序映射(用于顺序数据)。 我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码。同样很清楚的是,像条件这样的分类特征,其可能值为“旧的”、“翻新的”、“新的”,可以分别排序和编码为1、2、3

但我不确定如何对不太明显的特征进行编码。这些特征的本质并不是显而易见的,在某种程度上可以同时归因于顺序数据和分类数据。让我们看看这个例子:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 
问题是:

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子(材料):

从我的角度来看,这些数据可以按顺序排序和编码为1,2,3,4。简单的装甲比金属贵。金属比木头等更贵。但我在youtube上看过一个讲座,据说不按顺序编码功能,只是因为你看到了一些上升或下降的模式。这些模式可能是幻觉和错误的

另一个示例(internet连接类型):

有些速度更快,有些速度比其他速度慢,但没有“明确的顺序”。如何处理这些“不清楚”的分类数据


如何区分分类数据和顺序数据?或者我只需要对非常简单的顺序变量(如“条件”)进行顺序编码,并将其余不清楚的变量作为分类变量和伪代码进行编码。

我想说,顺序变量是可以排序的,并且在值集之外的答案仍然有意义。好的例子是“同意”/“不同意”。你可以将它们映射到值1-5,甚至当你得到2.3时,你也知道它的意思:它比“同意”多一点。但对于“塑料”和“木材”来说,这完全没有意义——这是绝对的。
关于互联网连接类型。视情况而定。如果我们谈论的是速度,你可以对这些连接进行排序,那么将其视为有序连接可能是有意义的。但是,如果我们谈论的是调制解调器类型的流行程度,那么它只是一个分类变量,我想说的是,顺序变量是可以排序的,并且在值集之外进行回答仍然是有意义的。好的例子是“同意”/“不同意”。你可以将它们映射到值1-5,甚至当你得到2.3时,你也知道它的意思:它比“同意”多一点。但对于“塑料”和“木材”来说,这完全没有意义——这是绝对的。 关于互联网连接类型。视情况而定。如果我们谈论的是速度,你可以对这些连接进行排序,那么将其视为有序连接可能是有意义的。但如果我们谈论的是现代类型的流行度,那么它只是一个分类变量

Plastic
Wood    
Metal
Armored 
DSL
ADSL
SDSL
Cable
Broadband