全国生乳生産量②
単位根検定を行い定常過程のデータであることが分かったのでそのまま使おうと思います↓↓
## Warning in adf.test(production1): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: production1
## Dickey-Fuller = -8.5513, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary
自己相関・偏自己相関のプロット[横軸にLag(時間のラグ)縦軸にACF(自己相関係数)、横軸にLag(時間のラグ)縦軸にPACF(偏自己相関係数)]↓↓
自己相関関数とは、過去の自分自身との相関をみるもので、過去のどの時点のデータと現在時点のデータの関係が強いかを確認できます。上のグラフを見るとちょうど一年前の同じ月の相関が高くなっているのがわかります。(青色の点線は信頼区間なので越えてないと相関があるとは言えないようです)
偏自己相関関数とは、一年前との間にあるデータの影響を排除して純粋に一年前との相関をみていくために行うものだそうです。
念のためデータが自己相関を持っているかを確認するLjung-Box検定を行った結果、すべてのラグの自己相関が0であるとは言えないことが示されました↓↓
##
## Box-Ljung test
##
## data: production1
## X-squared = 114.7, df = 1, p-value < 2.2e-16
残渣の自己相関検定の結果p=0.1019と自己相関を持たない可能性が示されさらにグラフをみても残渣が縦軸の0に対して均一に分散している・ヒストグラムも正規分布しているように見えることから大きな問題はなさそうです↓↓
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0)(2,1,2)[12] with drift
## Q* = 25.905, df = 18, p-value = 0.1019
##
## Model df: 6. Total lags used: 24
最後にR言語による時系列予測とクロスバリデーション法による評価 | Logics of Blue
の記事を参考に2021年まで予測してみました↓↓
予測してみましたっといっても[パーフェクトR]などを読みながらやってみただけでauto.arimaを使ってARMAだとかARIMAだとか勝手に選んでくれて・・・と何となくは分かった気になったのですがまだ僕では難しかったですね。なので間違っている可能性大です。
そもそもデータのみの予測なので政治や気候などなどその他の要因により影響されてしまうので単純に予測はできないだろうと思うので注意が必要です。