Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/.htaccess/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 首先应该做什么:自动xgboost模型参数调整(Hyperopt)或功能选择(boruta)_Python 3.x_Xgboost_Feature Selection_Hyperparameters_Hyperopt - Fatal编程技术网

Python 3.x 首先应该做什么:自动xgboost模型参数调整(Hyperopt)或功能选择(boruta)

Python 3.x 首先应该做什么:自动xgboost模型参数调整(Hyperopt)或功能选择(boruta),python-3.x,xgboost,feature-selection,hyperparameters,hyperopt,Python 3.x,Xgboost,Feature Selection,Hyperparameters,Hyperopt,我通过从数据集的不同部分创建的许多小xgboost模型对客户机进行分类。 因为手动支持许多模型很困难,所以我决定通过Hyperopt自动化hyperparameters调优,并通过Boruta自动化特性选择 请告诉我,首先应该做什么:超参数调整还是功能选择?另一方面,这并不重要。 在特征选择之后,特征的数量从2500个减少到100个(实际上,我有50个真实特征和5个分类特征,通过OneHotEncoding变成2400个) 如果需要一些代码,请告诉我。非常感谢。特征选择(FS)可被视为预处理活动

我通过从数据集的不同部分创建的许多小xgboost模型对客户机进行分类。 因为手动支持许多模型很困难,所以我决定通过Hyperopt自动化hyperparameters调优,并通过Boruta自动化特性选择

请告诉我,首先应该做什么:超参数调整还是功能选择?另一方面,这并不重要。 在特征选择之后,特征的数量从2500个减少到100个(实际上,我有50个真实特征和5个分类特征,通过OneHotEncoding变成2400个)

如果需要一些代码,请告诉我。非常感谢。

特征选择(FS)可被视为预处理活动,其目的是识别具有低偏差和低方差的特征[1]

同时,超参数优化(HPO)的主要目的是自动化超参数优化过程,并使用户能够将机器学习(ML)模型有效地应用于实际问题[2]。将HPO技术应用于ML模型的一些重要原因如下[3]:

  • 它减少了所需的人力,因为许多ML开发人员花费大量时间调整超参数,特别是对于大型数据集或具有大量超参数的复杂ML算法

  • 它提高了ML模型的性能。许多ML超参数具有不同的优化,以在不同的数据集或问题中实现最佳性能

  • 这使得模型和研究更具可重复性。只有在实现同一级别的超参数优化过程时,才能公平地比较不同的ML算法;因此,在不同的ML算法上使用相同的HPO方法也有助于为特定问题确定最合适的ML模型

  • 鉴于两者之间的上述差异,我认为对于给定的算法,应该首先应用FS,然后应用HPO

    参考资料

    [1] 蔡志辉、艾伯勒、W.和朱志勇,2013年。特征和实例选择中的遗传算法。《基于知识的系统》,第39页,第240-247页

    [2] M.Kuhn,K.Johnson应用预测建模Springer(2013)ISBN:9781461468493

    [3] F.Hutter,L.Kotthoff,J.Vanschoren(编辑),《自动机器学习:方法、系统、挑战》,9783030053185,Springer(2019)

    我建议SHAP-HYPETUNE:。。。一个python包,用于同时调整超参数和渐变增强模型的功能选择