Scikit learn sklearn中带RFECV的GridSearchCV的含义

Scikit learn sklearn中带RFECV的GridSearchCV的含义,scikit-learn,cross-validation,feature-selection,Scikit Learn,Cross Validation,Feature Selection,基于此,我知道RFECV可以与GridSearchCV相结合,为线性支持向量机这样的模型获得更好的参数设置 正如答案中所说,有两种方式: 在RFECV上运行GridSearchCV,这将导致将数据分成两次折叠(一次在GridSearchCV内,一次在RFECV内),但对组件数量的搜索将是有效的 “仅在RFE上执行GridSearchCV,这将导致数据的单个拆分,但对RFE估计器的参数扫描效率非常低。” 为了澄清我的问题,我必须首先澄清RFECV: 将整个数据拆分为n个折叠 在每个折叠中,仅通

基于此,我知道
RFECV
可以与
GridSearchCV
相结合,为线性支持向量机这样的模型获得更好的参数设置

正如答案中所说,有两种方式:

  • 在RFECV上运行GridSearchCV,这将导致将数据分成两次折叠(一次在GridSearchCV内,一次在RFECV内),但对组件数量的搜索将是有效的

  • “仅在RFE上执行GridSearchCV,这将导致数据的单个拆分,但对RFE估计器的参数扫描效率非常低。”

为了澄清我的问题,我必须首先澄清RFECV:

  • 将整个数据拆分为n个折叠

  • 在每个折叠中,仅通过将训练数据拟合到
    rfe
    来获得特征等级

  • 排序排序,将训练数据拟合到
    SVM
    中,并在测试数据上进行测试以进行评分。这应该进行m次,每次特征数量减少,其中m是假设
    step=1
    的特征数量

  • 在前一步中获得一系列得分,在步骤1~3进行了n次之后,该序列最后将在n次中进行平均,从而得到一个平均得分序列,表明在
    rfe
    中要进行的最佳特征数量

  • 将最佳特征数作为
    n\u features\u的参数,以便在
    rfe
    中选择与原始整体数据相匹配的

  • 。支持
    在功能中获得“优胜者”
    .grid\u scores
    获取平均得分序列

  • 如果我错了,请纠正我,谢谢
  • 所以我的问题是把GridSearchCV放在哪里?我猜第二种方法“do GridSearchCV just on RFE”是在第5步中的do GridSearchCV,它将SVM的参数设置为网格中的一个值,将其拟合到由GridSearchCV分割的训练数据上,以获得第4步中建议的特征数量,并使用其余数据对其进行测试以获得分数。该过程以k次完成,平均分数表示网格中该值的优点,其中k是GridSearchCV中的参数
    cv
    。然而,由于可选的训练数据和网格值,选定的特征可能会有所不同,这使得第二种方法不合理,如果按照我的猜测进行的话

    GridSearchCV实际上是如何与RFECV相结合的?

    另请参见以下内容: