強化学習(Reinforcement Learning)

G検定対策 ── 図解つき解説
🔰 初心者

強化学習って、教師あり学習や教師なし学習と何が違うんですか?

🎓 上級者

強化学習は「試行錯誤で学ぶ」タイプの学習だよ。正解を教えてもらうのではなく、自分で行動して、その結果の「報酬」から良い行動を学んでいくんだ。

📊 機械学習の3つのタイプ

📚 教師あり学習

正解ラベル付きデータで学習

例:「この画像は猫」と教える

用途:分類、回帰

🔍 教師なし学習

ラベルなしデータで構造を発見

例:似た顧客をグループ化

用途:クラスタリング、次元削減

🎮 強化学習

試行錯誤と報酬で学習

例:ゲームをプレイして上達

用途:ゲームAI、ロボット制御

💡 強化学習の特徴

• 正解を直接教えてもらわない(教師あり学習との違い)
• 行動の結果として報酬を受け取り、良い行動を学ぶ
• 将来の報酬を最大化するように行動を決める
• 「探索」と「活用」のバランスが重要

🔄 強化学習の基本構造
強化学習の基本フレームワーク 🤖 エージェント (学習する主体) 🌍 環境 (外の世界) 行動 (Action) 状態 (State) 報酬 (Reward) エージェントの役割 • 状態を観察し行動を選択 • 報酬から学習する 環境の役割 • 行動を受けて状態遷移 • 報酬を返す
図1: エージェントは環境と相互作用しながら、報酬を最大化する行動を学習する
📖 強化学習の重要用語
🤖 エージェント(Agent)
学習する主体。環境を観察し、行動を選択し、報酬を受け取って学習する。
🌍 環境(Environment)
エージェントの外部にある世界。行動を受けて状態が変化し、報酬を返す。
📍 状態(State)
ある時点での環境の状況。エージェントが観察できる情報。
🎯 行動(Action)
エージェントが取れる選択肢。
🏆 報酬(Reward)
行動の結果としてもらえる数値。良い行動なら正、悪い行動なら負。
📜 方策(Policy)
状態から行動への対応付け。強化学習の目標は最適な方策を見つけること
💰 価値関数(Value Function)
ある状態からどれくらいの報酬が期待できるかを表す関数。
⚖️ 探索と活用のジレンマ
探索(Exploration)vs 活用(Exploitation) 🔍 探索(Exploration) 新しい行動を試してみる ✓ 未知の報酬を発見できる ✗ 悪い結果になるリスク ⚖️ 💰 活用(Exploitation) 既知の良い行動を繰り返す ✓ 確実に報酬を得られる ✗ より良い選択肢を見逃す
図2: 探索と活用のバランスが強化学習の重要なポイント
🎰 ε-greedy(イプシロン・グリーディ)法

探索と活用のバランスを取る代表的な手法。

• 確率 ε(例:10%)でランダムな行動を選ぶ(探索)
• 確率 1−ε(例:90%)で今一番良いと思う行動を選ぶ(活用)

🧮 主要なアルゴリズム

📊 Q学習(Q-Learning)

最も基本的な強化学習アルゴリズム。各「状態と行動のペア」に対する価値(Q値)を学習する。
Q値:ある状態である行動を取ったとき、将来得られる報酬の期待値

🧠 DQN(Deep Q-Network)

Q学習にディープラーニングを組み合わせた手法。DeepMindが2013年に発表し、Atariゲームで人間超え。
• Q値をニューラルネットワークで近似
Experience Replay:過去の経験をランダムに再利用
Target Network:学習安定のため別のネットワークで目標値計算

🎯 方策勾配法(Policy Gradient)

Q値ではなく、方策(行動の確率分布)を直接学習する手法。
• 行動が連続値の場合に有効(例:ロボットの関節角度)
• 代表例:REINFORCE、Actor-Critic
🎯 強化学習の応用例
分野具体例説明
ゲームAIAlphaGo、Atari囲碁で世界チャンピオンに勝利
ロボット制御歩行、物体操作試行錯誤で動作を学習
自動運転車線変更、駐車シミュレータで安全な運転を学習
LLMの調整RLHF(ChatGPTなど)人間のフィードバックを報酬として改善
⭐ AlphaGo(2016年)

DeepMindが開発した囲碁AI。強化学習とディープラーニングを組み合わせ、世界チャンピオンに勝利。

方策ネットワーク:次の手を予測
価値ネットワーク:勝率を予測
自己対戦:自分自身と対戦して強くなる

🎯 G検定で押さえるべきポイント