Python 如何确定用于回归或分类的特征?
我正在处理CSV文件,它有12列。十列为特征,两列表示结果。我用Python的scikit学习库制作了两个回归和分类模型 我发现精度取决于我使用的功能和使用的参数数量 有没有办法确定回归或分类使用的特征,有没有办法找出我的模型的最佳参数 这是我写的简单代码,它有3个特性和一个结果,如何确定最好使用哪些特性(最好使用Python 如何确定用于回归或分类的特征?,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正在处理CSV文件,它有12列。十列为特征,两列表示结果。我用Python的scikit学习库制作了两个回归和分类模型 我发现精度取决于我使用的功能和使用的参数数量 有没有办法确定回归或分类使用的特征,有没有办法找出我的模型的最佳参数 这是我写的简单代码,它有3个特性和一个结果,如何确定最好使用哪些特性(最好使用'par_1'和'par_2',或者只是'par_2','par_1'和'par_3','par u 2',有没有办法获得最佳功能列表 import pandas as pd from
'par_1'
和'par_2'
,或者只是'par_2'
,'par_1'
和'par_3'
,'par u 2
',有没有办法获得最佳功能列表
import pandas as pd
from sklearn.linear_model import LinearRegression
dic = {'par_1': [10, 30, 11, 19, 28, 33, 23],
'par_2': [1, 3, 1, 2, 3, 3, 2],
'par_3': [15, 3, 16, 65, 24, 56, 13],
'outcome': [101, 905, 182, 268, 646, 624, 465]}
df = pd.DataFrame(dic)
variables = df.iloc[:,:-1]
results = df.iloc[:,-1]
print(variables.shape)
print(results.shape)
reg = LinearRegression()
reg.fit(variables, results)
x = reg.predict([[18, 2, 21]])[0]
print(x)
这是一种获取我应该使用的功能列表的方法吗?如果按参数,您指的是有很多选项的功能
如果“参数”指的是模型超参数,那么请在sklearn的文档中搜索
GridSearchCV
您缺少的搜索词是“主成分分析”,或者简单地说是“PCA”。scikit learn还有一页关于这一点:不应轻率地建议PCA进行特征缩减;不能保证顶级主成分比低方差主成分具有更大的预测能力——请参见我所做的研究中的答案,但我找不到答案。有没有办法得到最适合我的模型的功能名称?