时间序列预测-ARIMA/ARIMAX，每日数据以R表示_R_Time Series_Arima_Forecast_Autocorrelation

时间序列预测-ARIMA/ARIMAX，每日数据以R表示

时间序列预测-ARIMA/ARIMAX，每日数据以R表示,r,time-series,arima,forecast,autocorrelation,R,Time Series,Arima,Forecast,Autocorrelation,在此处输入代码我正在进行一个项目，以分析和预测客户销售和收入的时间序列。季节性ARIMA和ARIMAX >（我也想考虑数据中的分类变量），有各种模型我想测试精度的目的，即 HoLT-线性方法，Holt Winter方法，有马，季节ARIMA和ARIMAX 。数据是每日形式的，因此我选择频率为7 startW <- as.numeric(strftime(head(revenue$date, 1), format = "%W")) startD <- as.numeric(strf

在此处输入代码

我正在进行一个项目，以分析和预测客户销售和收入的时间序列。季节性ARIMA和ARIMAX <强> >（我也想考虑数据中的分类变量），有各种模型我想测试精度的目的，即<强> HoLT-线性方法，Holt Winter方法，有马，季节ARIMA和ARIMAX <强>。数据是每日形式的，因此我选择频率为7

startW <- as.numeric(strftime(head(revenue$date, 1), format = "%W"))
startD <- as.numeric(strftime(head(revenue$date, 1) + 1, format =" %w")) 
revenue <- ts(revenue$amount, start = c(startW, startD), frequency = 7)

我现在得到的模型是ARIMA（0,0,1）（2,1,0）[7]，这是残差图

对于这两种情况，如果我看到预测值和观察值的差异，百分比差异平均在3%-50%之间。如何改进模型并了解ARIMA模型的输出

谢谢

您似乎正在使用

forecast

包中的

auto.arima（）

。您可以在R中找到许多关于使用此软件包和时间序列预测的好信息。对于您给出的输出，第一个括号中的3个值表示ARIMA模型中p、d和q的顺序。p是自回归项，d是差分阶数，q是移动平均项。第二个父项中的3个值表示季节性成分P、D和Q，其中每个值分别表示自回归项、差分项和移动平均项。括号中的数字7表示您选择的频率

一般来说，要找到最佳的ARIMA模型，您需要查看Akaike信息准则（AIC）或贝叶斯信息准则（BIC），并尝试最小化这些准则。再次查看链接了解更多详细信息。

时间序列的ACF和PACF图如下所示

如果我的理解是正确的，ACF建议q=7，PACF建议p=7？

谢谢你的链接，我已经用它作为参考，但有一些困惑。根据以上曲线图，模型是否良好？为每日数据设置频率=7是否合适？您是否尝试过使用

auto.arima（）

的

stepwise=FALSE

选项？我认为对每日数据使用30的频率可能更合适。这大概是每月一次。通常，您应该遵循Box-Jenkins程序进行模型选择。这涉及使用ACF和PACF分别选择移动平均和自回归项的顺序。请看这里的解释。是的，但我在剩余ACF图中看到一个尖峰。

encoded_regressors <- sparse.model.matrix(amount~holiday, data = train_set)
encoded_regressors <- (encoded_regressors[,-1])
model2 <- auto.arima(revenue.train, xreg = encoded_regressors)