Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/84.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R中多元线性回归的交叉验证_R_Regression_Forecasting_Cross Validation - Fatal编程技术网

R中多元线性回归的交叉验证

R中多元线性回归的交叉验证,r,regression,forecasting,cross-validation,R,Regression,Forecasting,Cross Validation,我目前正在做一个大学项目,以预测24/7商店的顾客数量。我使用的是一家商店的数据,其中包含(除其他外)某一年中每一位客户的服务日期和时间 我已将此数据集拆分为一个训练集和一个交叉验证集。此外,我还将培训集与同一年的天气数据进行了汇总和合并,以了解高温是否会带来更多客户 合并数据的简化版本如下所示: | ServedCustomers | Month | Day | Hour | Temperature (C°) | Rain(binary) | --------------- | ----- |

我目前正在做一个大学项目,以预测24/7商店的顾客数量。我使用的是一家商店的数据,其中包含(除其他外)某一年中每一位客户的服务日期和时间

我已将此数据集拆分为一个训练集和一个交叉验证集。此外,我还将培训集与同一年的天气数据进行了汇总和合并,以了解高温是否会带来更多客户

合并数据的简化版本如下所示:

| ServedCustomers | Month | Day | Hour | Temperature (C°) | Rain(binary)
| --------------- | ----- | --- | ---- | ---------------- | ------------
| 1               | 12    | 31  | 12   | 9.2              | 0
| 0               | 12    | 31  | 13   | 9.8              | 1
| 2               | 12    | 31  | 14   | 10.1             | 0
一年中的每一个小时,我都有服务的客户数量以及相应的天气数据

我在R中创建了一个多元线性回归模型,用几乎所有其他变量作为预测因子来预测客户数量。使用
summary()
命令,到目前为止,MSE、R^2和其他统计数据看起来还不错

现在我想检查同一个模型是否也适用于交叉验证集。为此,我合并了相同的天气数据,以获得一个与上表结构相同的数据集,只是客户数量不同

然而,这就是我目前所处的困境。将
predict.lm()
函数与模型和交叉验证集一起使用似乎是可行的,但只产生预测值和少量附加信息


是否有某种方法可以创建模型对其他数据集的运行情况摘要?类似于
summary()
命令,但对于线性模型最初不基于的数据集?

可以计算均方误差和均方根误差,以查看模型的性能

1) 取你的系数,乘以你训练数据中的协变矩阵。yhat=(X*b)

2) 拿你的训练集y's,把它们和上面的yhat区别开来

3) 误差平方

4) 取答案的平方根=均方根误差


较低的值意味着整体拟合更好

您可以计算均方误差和均方根误差,以查看您的模型的拟合情况

1) 取你的系数,乘以你训练数据中的协变矩阵。yhat=(X*b)

2) 拿你的训练集y's,把它们和上面的yhat区别开来

3) 误差平方

4) 取答案的平方根=均方根误差

较低的值意味着更适合整体