Double DQN / Dueling DQN / NoisyNet / Rainbow DQN
Q値が最大の行動を選ぶ → でもこの仕組みにはまだ弱点がある…
DQNは画期的だったけど、弱点があった。
それぞれの弱点を直すモデルが登場した。1つずつ見ていこう。
DQNの弱点:Q値を高く見積もりすぎる
ターゲットNNが行動の選択も評価も両方やる
(maxが選択+評価を兼ねる)
メインNNが行動を選び、ターゲットNNがQ値を評価
DQNの弱点:「状態の良さ」と「行動の良さ」がごちゃ混ぜ
A値がほぼ0 → 「どう動いても同じ」と正しく学習できる。
V値の学習に集中できる。
A値に大きな差 → 「右に動くべき!」と正しく学習。
DQNの弱点:探索が雑すぎる(ε-greedy法の限界)
もっと探索したい場面なのに…
ε=10%しかランダムにならない
→ 探索不足
もう十分わかってる場面でも…
ε=10%ランダムになっちゃう
→ 無駄な探索
ε%の確率で完全ランダム行動
(NNの外側で無理やり乱数)
NNの重みそのものにノイズ
→ 「ちょっとだけ違う判断」が自然発生
→ ノイズの大きさも自動学習
重み w は学習中に更新されるだけ
ランダム性は一切なし
ε = ランダムノイズ(毎回変わる)
σ = ノイズの大きさ(これ自体も学習される)
σ大 → まだ不確実 → もっと探索
σ小 → もう学んだ → 探索を控えめに
「全部合体させたら最強になるのでは?」→ なった
CNNでQ値を予測する基本形。
Q値の過大評価を防ぐ。選択と評価を分離。
Q値をV(状態)とA(行動の利点)に分解。
重みにノイズを混ぜて探索を賢く自動化。
大きく予測を外した経験を優先的に復習する。
1ステップ先だけでなく数ステップ先の報酬まで考慮。
Q値を1つの数値でなく確率分布として予測。
「間違えた問題を優先的に復習する」仕組み
全ての経験を同じ確率で
ランダムに取り出す
→ 簡単な問題もたくさん復習してしまう
予測の誤差が大きい経験ほど
優先的に取り出される
→ 苦手な部分を集中的に復習 → 効率UP
「もっと先まで読んで答え合わせする」仕組み
1ステップ先の報酬 + 推定値
→ 推定値への依存度が高い
3ステップ先の実際の報酬を使う
→ 推定値への依存度が下がり正確
「だいたい80点」ではなく「70〜90点の確率分布」で予測する
「この行動の価値は8.0」
→ バラつきの情報が失われる
「平均は8.0だけど、6〜10の間にばらつく」
→ リスクの情報も含まれる
| モデル | 年 | 解決した問題 | 覚えるキーワード | たとえ |
|---|---|---|---|---|
| DQN | 2013 | Q学習を画像に適用 | Experience Replay Target Network |
テスト勉強の基本 |
| Double DQN | 2015 | Q値の過大評価 | 選択と評価の分離 | 自己採点→他人に採点 |
| Dueling DQN | 2016 | V と A がごちゃ混ぜ | Q = V + A | 基礎点+ボーナス点 |
| NoisyNet | 2017 | 探索が雑 | 重みにノイズ / 自動調整 | ギターの指使いを少し変える |
| Rainbow | 2017 | — | 7つの技術を全統合 | 最強の幕の内弁当 |