Python Scikit学习中的功能选择遇到混合变量类型的问题
我目前正在尝试为我拥有的数据集进行特征选择。大约有50个变量,其中35个是分类变量,每个变量要么是二进制变量,要么有<5个可能值。我试图在预处理之前获得15个输入变量 我试图在scikit learn中使用递归特性消除和交叉验证(RFECV)。因为存在连续变量和分类变量的混合,当我对分类进行一次热编码时,我遇到了一些问题,我有两个问题:Python Scikit学习中的功能选择遇到混合变量类型的问题,python,scikit-learn,data-science,feature-selection,Python,Scikit Learn,Data Science,Feature Selection,我目前正在尝试为我拥有的数据集进行特征选择。大约有50个变量,其中35个是分类变量,每个变量要么是二进制变量,要么有
clf = SVC(kernel="linear")
rfecv = RFECV(estimator=clf, step=1, cv=StratifiedKFold(10), scoring="balanced_accuracy")
rfecv.fit(x_train, y_train)
clf2 = ExtraTreesClassifier(random_state=RANDOM_SEED)
rfecv2 = RFECV(estimator=clf2, step=1, cv=StratifiedKFold(10), scoring="balanced_accuracy")
rfecv2.fit(x_train, y_train)
my_dict={“Food\u Pizza”:“Food”,“Food\u意大利面”:“Food”}
。然后您只需调用orig\u column=my\u dict[new\u column]
就可以得到常规列。其他选项取决于您如何命名功能和一个热编码。例如,如果所有一个热编码都是“FeatureName_value”(就像熊猫模型中的一样),那么您只需解析名称并在“u”字符之前获取所有内容