Machine learning SVM（或其他ML模型）的预测精度在多大程度上取决于特征的编码方式？_Machine Learning_Svm_Prediction_Feature Extraction_Information Theory

Machine learning SVM（或其他ML模型）的预测精度在多大程度上取决于特征的编码方式？

machine-learning

Machine learning SVM（或其他ML模型）的预测精度在多大程度上取决于特征的编码方式？,machine-learning,svm,prediction,feature-extraction,information-theory,Machine Learning,Svm,Prediction,Feature Extraction,Information Theory,假设对于给定的ML问题，我们有一个人拥有的汽车特征。我们可以通过以下方式之一对该信息进行编码：为每辆车分配一个id。制作一列“CAR_Owned”，并将特征id作为值。为每辆车做一列，根据所考虑的样品是否拥有该车，填入0或1。纵队将像宝马、奥迪一样。在我的实验中，当使用支持向量机时，第二种方法的性能比第一种要好得多编码方式是如何影响模型学习的？是否有研究编码方式影响的资源？或者我们是否需要进行点击和试验来检查它在哪里表现最好？第一种方法的问题是，您使用任意数字来表示功能，例如BMW=2等

假设对于给定的ML问题，我们有一个人拥有的汽车特征。我们可以通过以下方式之一对该信息进行编码：

为每辆车分配一个id。制作一列“CAR_Owned”，并将特征id作为值。为每辆车做一列，根据所考虑的样品是否拥有该车，填入0或1。纵队将像宝马、奥迪一样。在我的实验中，当使用支持向量机时，第二种方法的性能比第一种要好得多

编码方式是如何影响模型学习的？是否有研究编码方式影响的资源？或者我们是否需要进行点击和试验来检查它在哪里表现最好？

第一种方法的问题是，您使用任意数字来表示功能，例如BMW=2等。SVM会认真对待这些数字，好像它们有顺序：例如，它可能会尝试使用CAR_OWNED>3的案例进行预测。

所以第二种方法更好。

第2.1章分类特征：

如果你搜索svm分类特征，你会发现更多的分类特征

好的，我也得到了答案。分类特征必须以布尔形式提供，原因正如您所说。按原样提供数值特征。谢谢但是仍然有关于特征编码的讨论资源吗？