Python 使用管道时MSE错误_Python_Scikit Learn_Svm

Python 使用管道时MSE错误

python scikit-learn

Python 使用管道时MSE错误,python,scikit-learn,svm,Python,Scikit Learn,Svm,我试图从我搜集的数据集中预测一些价格。我从未为此使用过Python（我通常使用tidyverse，但这次我想探索管道）。下面是代码片段： import pandas as pd from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import OneHotEncoder from sklearn.pipe

我试图从我搜集的数据集中预测一些价格。我从未为此使用过Python（我通常使用

tidyverse

，但这次我想探索

管道

）。下面是代码片段：

import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
import numpy as np

df = pd.read_csv("https://raw.githubusercontent.com/norhther/idealista/main/idealistaBCN.csv")
df.drop("info", axis = 1, inplace = True)
df["floor"].fillna(1, inplace=True)
df.drop("neigh", axis = 1, inplace = True)
df.dropna(inplace = True)
df = df[df["habs"] < 11]
X = df.drop("price", axis = 1)
y = df["price"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
ct = ColumnTransformer(
   [("standardScaler", StandardScaler(), ["habs", "m2", "floor"]),
   ("onehot", OneHotEncoder(), ["type"]
    )], remainder="passthrough")

pipe = Pipeline(steps = [("Transformer", ct),
                          ("svr", SVR())])

param_grid = {
  "svr__kernel" : ['linear', 'poly', 'rbf', 'sigmoid'],
  "svr__degree" : range(3,6),
  "svr__gamma" : ['scale', 'auto'],
  "svr__coef0" : np.linspace(0.01, 1, 2)
}

search = GridSearchCV(pipe, param_grid,  scoring = ['neg_mean_squared_error'], refit='neg_mean_squared_error')

search.fit(X_train, y_train)
print(search.best_score_)

pipe = Pipeline(steps = [("Transformer", ct),
                          ("svr", SVR(coef0 = search.best_params_["svr__coef0"],
                                     degree = search.best_params_["svr__degree"],
                                     kernel = 

search.best_params_["svr__kernel"]))])

from sklearn.metrics import mean_squared_error

pipe.fit(X_train, y_train)
preds = pipe.predict(X_train)
mean_squared_error(preds, y_train)

将熊猫作为pd导入
从sklearn.compose导入ColumnTransformer
从sklearn.preprocessing导入StandardScaler
从sklearn.preprocessing导入OneHotEncoder
从sklearn.pipeline导入管道
从sklearn.svm导入SVR
从sklearn.model\u选择导入列车\u测试\u拆分
从sklearn.model_选择导入GridSearchCV
将numpy作为np导入
df=pd.read_csv（“https://raw.githubusercontent.com/norhther/idealista/main/idealistaBCN.csv")
落差（“信息”，轴=1，原地=真）
df[“地板”].fillna（1，原地=真）
落差（“嘶鸣”，轴=1，原地=真）
df.dropna（就地=真）
df=df[df[“habs”]<11]
X=df.下降（“价格”，轴=1）
y=df[“价格”]
X_序列，X_测试，y_序列，y_测试=序列测试分割（X，y，测试大小=0.2，随机状态=42）
ct=柱状变压器(
[（“standardScaler”，standardScaler（），[“habs”，“m2”，“地板]），
（“onehot”，OneHotEncoder（），[“type”]
)]，余数=“传递”）
管道=管道（步骤=[（“变压器”，ct），
（“svr”，svr（））]
参数网格={
“svr__核”：[‘线性’、‘多边形’、‘rbf’、‘S形’]，
“svr___度”：范围（3,6），
“svr__γ”：[“缩放”，“自动”]，
“svr__coef0”：np.linspace（0.01,1,2）
}
search=GridSearchCV（管道、参数网格、评分=['neg_mean_squared_error']，refit='neg_mean_squared_error'）
search.fit（X_-train，y_-train）
打印（搜索最佳分数）
管道=管道（步骤=[（“变压器”，ct），
（“svr”，svr（coef0=search.best_params）[“svr__coef0”]，
度=搜索。最佳参数[“svr度”]，
内核=
search.best_params（svr___内核]]））
从sklearn.metrics导入均方误差
管道安装（X_系列、y_系列）
preds=管道预测（X_列）
均方误差（preds，y列）

和

搜索。这里的最佳得分是-443829697806.1671
，MSE
是60895397916.3896
我想我搞砸了一些东西，可能是变压器，但我不能完全确定。我想这是一个经过检验的MSE
。我用tidymodels做了一个非常类似的方法，得到了更好的结果。
所以在这里我想知道变压器是否有问题，或者只是模型太差。
原因是参数中没有包含C，需要覆盖整个Cs范围才能进行拟合。如果我们使用默认的C=1进行拟合，您可以看到问题出在哪里：
import matplotlib.pyplot as plt
o = pipe.named_steps["Transformer"].fit_transform(X_train)
mdl = SVR(C=1)
mdl.fit(o,y_train)
plt.scatter(mdl.predict(o),y_train)


有些价格值是平均值的10倍（1e7与5e5的中值）。如果使用mse或r^2，这些值将在很大程度上取决于这些极值。因此，我们需要更密切地跟踪数据，这由C决定，您可以选择C。我们尝试一个范围：
ct = ColumnTransformer(
   [("standardScaler", StandardScaler(), ["habs", "m2", "floor"]),
   ("onehot", OneHotEncoder(), ["type"]
    )], remainder="passthrough")

pipe = Pipeline(steps = [("Transformer", ct),
                          ("svr", SVR())])

#, 'poly', 'rbf', 'sigmoid'
param_grid = {
  "svr__kernel" : ['rbf'],
  "svr__gamma" : ['auto'],
  "svr__coef0" : [1,2],
   "svr__C" : [1e-03,1e-01,1e1,1e3,1e5,1e7]
}

search = GridSearchCV(pipe, param_grid, scoring = ['neg_mean_squared_error'], 
refit='neg_mean_squared_error')

search.fit(X_train, y_train)
print(search.best_score_)
-132061065775.25969

你们的y值很高，MSE值将在y值的方差范围内，所以若我们检查：
y_train.var()
545423126823.4545

132061065775.25969 / y_train.var()
0.24212590057261346

这很好，你将MSE减少到方差的25%左右。我们可以用测试数据来检查这一点，我想在这种情况下，C值非常好是非常幸运的：
from sklearn.metrics import mean_squared_error

o = pipe.named_steps["Transformer"].fit_transform(X_train)
mdl = SVR(C=10000000.0, coef0=1, gamma='auto')
mdl.fit(o,y_train)

o_test = pipe.named_steps["Transformer"].fit_transform(X_test)

pred = mdl.predict(o_test)
print( mean_squared_error(pred,y_test) , mean_squared_error(pred,y_test)/y_test.var())
plt.scatter(mdl.predict(o_test),y_test)

谢谢你的回答。一个问题，在训练方差中看到MSE
意味着什么而不是在常规值中？你的目标值越大，你的MSE就越大？