時系列データって普通のデータと何が違うんですか?
時系列データは「時間の順番」に意味があるデータのことだよ。株価、気温、売上高など、過去の値が未来に影響するのが最大の特徴。普通のデータと違って「並び替え厳禁」なんだ。
時系列データは大きく4つの成分に分解できる。これを理解すると、モデル選びの判断がしやすくなるよ。
| 成分 | 意味 | 例 |
|---|---|---|
| トレンド | 長期的な上昇・下降の傾向 | 年々上がるGDP |
| 季節性 | 一定周期で繰り返すパターン | 夏に売れるアイス |
| 循環変動 | 季節より長い周期の変動 | 景気循環(数年周期) |
| 不規則変動 | 上記で説明できないランダムな揺れ | 突発的なニュースの影響 |
時系列分析で「定常性」が大事と聞きますが、どういう意味ですか?
定常過程とは、統計的な性質(平均・分散)が時間によって変わらないデータのこと。多くの時系列モデルは「データが定常である」ことを前提にしている。非定常なデータはそのまま分析できないので、差分をとって定常にしてから分析するんだ。
平均・分散が一定
トレンドや季節性がない
→ そのままモデルに入力OK
平均・分散が時間で変化
トレンドや季節性がある
→ 差分をとって定常にする
元のデータから「1つ前の値を引く」操作。トレンドを取り除いて定常化できる。
例:株価が [100, 103, 108, 106] → 差分 [+3, +5, -2]
元の株価はトレンドがあるが、差分を取ると「変化量」になりトレンドが消える。
1回の差分で定常にならなければ2回差分を取ることもある(2階差分)。
自己共分散って何ですか?普通の共分散と違うんですか?
普通の共分散は「2つの異なる変数」の関係を見るけど、自己共分散は「同じ時系列の中で、時間がずれた値同士の関係」を見るものだよ。「今日の気温と3日前の気温はどのくらい関連があるか?」を数値化するイメージだね。
同じ時系列データ内で、k時点ずれた値同士の共分散。このずれ幅kをラグ(lag)と呼ぶ。
例:ラグ1の自己共分散 → 「今日の値」と「昨日の値」の共分散
ラグ7の自己共分散 → 「今日の値」と「7日前の値」の共分散
自己共分散を標準化(-1〜+1の範囲に変換)したものが自己相関係数。
自己共分散を標準化したもので、-1〜+1の値をとる。
+1に近い → 過去の値と強い正の関係(昨日高ければ今日も高い)
0に近い → 過去の値と関係なし(ランダム)
-1に近い → 過去の値と逆の関係
自己相関をラグごとにグラフにしたものをコレログラム(自己相関関数プロット)と呼び、データの性質を把握するのに使う。
| 用語 | 意味 | ポイント |
|---|---|---|
| ラグ(lag) | 時間のずれ幅 | ラグ1=1つ前、ラグ7=7つ前 |
| 自己共分散 | 同じ時系列のラグkの共分散 | 自分自身との共分散 |
| 自己相関係数 | 自己共分散を標準化(-1〜+1) | ラグごとの関連の強さ |
| コレログラム | 自己相関のグラフ | モデル選択の手がかりになる |
ランダムウォークってよく聞きますが、どういう仕組みですか?
「今の値=前の値+ランダムなノイズ」だけで決まるモデルだよ。酔っ払いがフラフラ歩くイメージで、次にどっちに行くか全く予測できない。株価がランダムウォークに従うなら、予測は不可能ということになるんだ。
式:y(t) = y(t-1) + ノイズ(今の値 = 前の値 + ランダムな変化)
特徴:
・過去の情報が未来の予測に役立たない
・トレンドがあるように見えるが、実はただの偶然の積み重ね
・分散が時間とともにどんどん大きくなる(非定常)
・差分を取るとホワイトノイズ(完全にランダムな系列)になる
金融の世界では「株価はランダムウォークに従う」とする効率的市場仮説がある。市場に出回る情報はすぐに価格に織り込まれるため、過去の値から将来を予測することはできない、という考え方。G検定では「ランダムウォーク=予測不可能」というニュアンスを押さえておけばOK。
時系列を予測するモデルにはどんなものがありますか?
統計的な時系列モデルはAR→MA→ARMA→ARIMAの順に発展してきた。それぞれ「何を使って予測するか」が違うんだ。
過去の値で予測
y(t) = a×y(t-1) + ...
「昨日暑かったから今日も暑い」
過去のノイズで予測
y(t) = b×ノイズ(t-1) + ...
「昨日の予測が外れた分を補正」
AR(過去の値で予測)
+ MA(過去のノイズで予測)
= ARMA(両方使う。ただし定常データ限定)
+ I(差分)(非定常→定常に変換)
= ARIMA(非定常データにも対応!)
| モデル | 正式名 | 予測に使うもの | 定常性 | パラメータ |
|---|---|---|---|---|
| AR | 自己回帰 | 過去の値 | 必要 | p(次数) |
| MA | 移動平均 | 過去のノイズ | 必要 | q(次数) |
| ARMA | 自己回帰移動平均 | 過去の値+ノイズ | 必要 | p, q |
| ARIMA | 自己回帰和分移動平均 | 差分+過去の値+ノイズ | 不要(差分で対応) | p, d, q |
| ランダムウォーク | — | 前の値+ランダム | 非定常 | — |