Prophetの論文を読んで重要箇所を抜粋

重要な箇所の抜粋

auto.arima : The methods in the figure are: auto.arima, which fits a range of ARIMA models and automatically selects the best one;(p3)

ets : which fits a collection of exponential smoothing models and selects the best (Hyndmanet al. 2002);

ETSモデル

単変量時系列分析の続き:ARIMA vs. ETS vs. Robust ETS - 渋谷駅前で働くデータサイエンティストのブログ

こちらのブログからETSモデルへの理解を抜粋すると

より直近の過去値からの影響を重視し、過去になればなるほど指数関数的に影響が小さくなるモデル 普通の加法型誤差項だけでなく乗法型誤差項も可能なモデル 以上の制約のもとで状態空間モデルにまとめたもので、モデル推定は観測値ではなく状態値に基づく ということなのかなと。これから直感的に分かるのは

直近の変動に対して追従しやすい 故に推定される信頼区間も未来になればなるほど広がりやすい 状態空間モデルなので異常値や欠損値に対して強い

最も詳しく書かれているのはこの辺

7.5 Innovations state space models for exponential smoothing | Forecasting: Principles and Practice (2nd ed)

snaive, a random walk model that makes constant predictions with weekly seasonality (seasonal naive)

snaiveというモデルも利用されている. ランダムウォークが基礎になっているモデル? 詳しく書かれているのはここ

3.1 Some simple forecasting methods | Forecasting: Principles and Practice (2nd ed)

ざっと読んだ感じ、「今」の状態は「その一つ前」に依存して発生するというそれだけの話の様子。 そのため一つ前の状態からの動作になるためrandom walk forecastと呼ばれている様子?(ランダムウォークだとその地点から定数分移動するイメージだが、これは別に加減に限らない様子なので、僕のランダムウォークに対する理解が狭義すぎる?)

で、それに季節性を持たせたものがseasonal naiveのようで。「今」と「その1シーズン前」に対して依存するという考え方でモデルを組んでいる。

さらにtbatsモデルというものも利用されている様子。

tbats, a TBATS model with both weekly and yearly seasonalities

この記事が非常に詳しい

11.1 Complex seasonality | Forecasting: Principles and Practice (2nd ed)

ハーモニック回帰に比べて季節性が時間と共にゆっくりと変化していく性質を持っている。。。ここで述べられているハーモニック回帰が見つけられなかったので、後日調査。

prophetの式

 y(t) = g(t) + s(t) + h(t) + εt.

g : トレンド項 s : 季節性項 h : 休日効果 ε : 誤差項

時系列データを回帰として扱いながらも、線形および非線形な関数を内包している

ARIMAモデルと異なる点 - 複数の期間ごとの周期性を解析し、アナリストに傾向値という知見をもたらす - 一定のデータ間隔を必須とせず、欠損値の補完も不要 - fitが早い - パラメータが解釈可能(例えばフーリエ級数など三角関数の定義の話に持っていけるので直感的(まあ人によって感じ方は違ってARIMAモデル(AR MA)のパラメータの方がわかりやすいっていう人はいるかもだけど))

それぞれの各項の詳細についてはBASEのブログで割愛する

devblog.thebase.in

正直トレンド項だけ論文及び記事を読んでも半分も理解できなかった・復習する

メモ:分解可能なモデルの利点はトレンド、週の変動性、年の変動性をそれぞれ別でみることができること。

In the Prophet model specification there are several places where analysts can alter the model to apply their expertise and external knowledge without requiring any understanding of the underlying statistics.

論文としては、コードを書く人は以下の4点さえ気にしたら良いと書いてある

  1. キャパシティ
  2. 変化点
  3. 祝日効果と周期
  4. スムージングパラメータ 例えば季節性のスムージングパラメータを調整することで、モデルに対してどのくらいの期間のデータを尊重するか決められる

解釈可能性として以下の指標を利用している

mean absolute percentage error (MAPE) for its interpretability