Python 3.x 首先应该做什么：自动xgboost模型参数调整（Hyperopt）或功能选择（boruta）_Python 3.x_Xgboost_Feature Selection_Hyperparameters_Hyperopt

Python 3.x 首先应该做什么：自动xgboost模型参数调整（Hyperopt）或功能选择（boruta）

python-3.x

Python 3.x 首先应该做什么：自动xgboost模型参数调整（Hyperopt）或功能选择（boruta）,python-3.x,xgboost,feature-selection,hyperparameters,hyperopt,Python 3.x,Xgboost,Feature Selection,Hyperparameters,Hyperopt,我通过从数据集的不同部分创建的许多小xgboost模型对客户机进行分类。因为手动支持许多模型很困难，所以我决定通过Hyperopt自动化hyperparameters调优，并通过Boruta自动化特性选择请告诉我，首先应该做什么：超参数调整还是功能选择？另一方面，这并不重要。在特征选择之后，特征的数量从2500个减少到100个（实际上，我有50个真实特征和5个分类特征，通过OneHotEncoding变成2400个）如果需要一些代码，请告诉我。非常感谢。特征选择（FS）可被视为预处理活动

我通过从数据集的不同部分创建的许多小xgboost模型对客户机进行分类。因为手动支持许多模型很困难，所以我决定通过Hyperopt自动化hyperparameters调优，并通过Boruta自动化特性选择

请告诉我，首先应该做什么：超参数调整还是功能选择？另一方面，这并不重要。在特征选择之后，特征的数量从2500个减少到100个（实际上，我有50个真实特征和5个分类特征，通过OneHotEncoding变成2400个）

如果需要一些代码，请告诉我。非常感谢。

特征选择（FS）可被视为预处理活动，其目的是识别具有低偏差和低方差的特征[1]

同时，超参数优化（HPO）的主要目的是自动化超参数优化过程，并使用户能够将机器学习（ML）模型有效地应用于实际问题[2]。将HPO技术应用于ML模型的一些重要原因如下[3]：

它减少了所需的人力，因为许多ML开发人员花费大量时间调整超参数，特别是对于大型数据集或具有大量超参数的复杂ML算法

它提高了ML模型的性能。许多ML超参数具有不同的优化，以在不同的数据集或问题中实现最佳性能

这使得模型和研究更具可重复性。只有在实现同一级别的超参数优化过程时，才能公平地比较不同的ML算法；因此，在不同的ML算法上使用相同的HPO方法也有助于为特定问题确定最合适的ML模型

鉴于两者之间的上述差异，我认为对于给定的算法，应该首先应用FS，然后应用HPO

参考资料

[1] 蔡志辉、艾伯勒、W.和朱志勇，2013年。特征和实例选择中的遗传算法。《基于知识的系统》，第39页，第240-247页

[2] M.Kuhn，K.Johnson应用预测建模Springer（2013）ISBN:9781461468493

[3] F.Hutter，L.Kotthoff，J.Vanschoren（编辑），《自动机器学习：方法、系统、挑战》，9783030053185，Springer（2019）

我建议SHAP-HYPETUNE:。。。一个python包，用于同时调整超参数和渐变增强模型的功能选择