Machine learning SVM(或其他ML模型)的预测精度在多大程度上取决于特征的编码方式?

Machine learning SVM(或其他ML模型)的预测精度在多大程度上取决于特征的编码方式?,machine-learning,svm,prediction,feature-extraction,information-theory,Machine Learning,Svm,Prediction,Feature Extraction,Information Theory,假设对于给定的ML问题,我们有一个人拥有的汽车特征。我们可以通过以下方式之一对该信息进行编码: 为每辆车分配一个id。制作一列“CAR_Owned”,并将特征id作为值。 为每辆车做一列,根据所考虑的样品是否拥有该车,填入0或1。纵队将像宝马、奥迪一样。 在我的实验中,当使用支持向量机时,第二种方法的性能比第一种要好得多 编码方式是如何影响模型学习的?是否有研究编码方式影响的资源?或者我们是否需要进行点击和试验来检查它在哪里表现最好?第一种方法的问题是,您使用任意数字来表示功能,例如BMW=2等

假设对于给定的ML问题,我们有一个人拥有的汽车特征。我们可以通过以下方式之一对该信息进行编码:

为每辆车分配一个id。制作一列“CAR_Owned”,并将特征id作为值。 为每辆车做一列,根据所考虑的样品是否拥有该车,填入0或1。纵队将像宝马、奥迪一样。 在我的实验中,当使用支持向量机时,第二种方法的性能比第一种要好得多


编码方式是如何影响模型学习的?是否有研究编码方式影响的资源?或者我们是否需要进行点击和试验来检查它在哪里表现最好?

第一种方法的问题是,您使用任意数字来表示功能,例如BMW=2等。SVM会认真对待这些数字,好像它们有顺序:例如,它可能会尝试使用CAR_OWNED>3的案例进行预测。
所以第二种方法更好。

第2.1章分类特征:


如果你搜索svm分类特征,你会发现更多的分类特征

好的,我也得到了答案。分类特征必须以布尔形式提供,原因正如您所说。按原样提供数值特征。谢谢但是仍然有关于特征编码的讨论资源吗?