🔰 初心者
強化学習って、教師あり学習や教師なし学習と何が違うんですか?
🎓 上級者
強化学習は「試行錯誤で学ぶ」タイプの学習だよ。正解を教えてもらうのではなく、自分で行動して、その結果の「報酬」から良い行動を学んでいくんだ。
📊 機械学習の3つのタイプ
📚 教師あり学習
正解ラベル付きデータで学習
例:「この画像は猫」と教える
用途:分類、回帰
🔍 教師なし学習
ラベルなしデータで構造を発見
例:似た顧客をグループ化
用途:クラスタリング、次元削減
🎮 強化学習
試行錯誤と報酬で学習
例:ゲームをプレイして上達
用途:ゲームAI、ロボット制御
💡 強化学習の特徴
• 正解を直接教えてもらわない(教師あり学習との違い)
• 行動の結果として報酬を受け取り、良い行動を学ぶ
• 将来の報酬を最大化するように行動を決める
• 「探索」と「活用」のバランスが重要
🔄 強化学習の基本構造
図1: エージェントは環境と相互作用しながら、報酬を最大化する行動を学習する
📖 強化学習の重要用語
🤖 エージェント(Agent)
学習する主体。環境を観察し、行動を選択し、報酬を受け取って学習する。
🌍 環境(Environment)
エージェントの外部にある世界。行動を受けて状態が変化し、報酬を返す。
📍 状態(State)
ある時点での環境の状況。エージェントが観察できる情報。
🎯 行動(Action)
エージェントが取れる選択肢。
🏆 報酬(Reward)
行動の結果としてもらえる数値。良い行動なら正、悪い行動なら負。
📜 方策(Policy)
状態から行動への対応付け。強化学習の目標は最適な方策を見つけること。
💰 価値関数(Value Function)
ある状態からどれくらいの報酬が期待できるかを表す関数。
⚖️ 探索と活用のジレンマ
図2: 探索と活用のバランスが強化学習の重要なポイント
🎰 ε-greedy(イプシロン・グリーディ)法
探索と活用のバランスを取る代表的な手法。
• 確率 ε(例:10%)でランダムな行動を選ぶ(探索)
• 確率 1−ε(例:90%)で今一番良いと思う行動を選ぶ(活用)
🧮 主要なアルゴリズム
📊 Q学習(Q-Learning)
最も基本的な強化学習アルゴリズム。各「状態と行動のペア」に対する価値(Q値)を学習する。
Q値:ある状態である行動を取ったとき、将来得られる報酬の期待値
🧠 DQN(Deep Q-Network)
Q学習にディープラーニングを組み合わせた手法。DeepMindが2013年に発表し、Atariゲームで人間超え。
• Q値をニューラルネットワークで近似
• Experience Replay:過去の経験をランダムに再利用
• Target Network:学習安定のため別のネットワークで目標値計算
🎯 方策勾配法(Policy Gradient)
Q値ではなく、方策(行動の確率分布)を直接学習する手法。
• 行動が連続値の場合に有効(例:ロボットの関節角度)
• 代表例:REINFORCE、Actor-Critic
🎯 強化学習の応用例
| 分野 | 具体例 | 説明 |
| ゲームAI | AlphaGo、Atari | 囲碁で世界チャンピオンに勝利 |
| ロボット制御 | 歩行、物体操作 | 試行錯誤で動作を学習 |
| 自動運転 | 車線変更、駐車 | シミュレータで安全な運転を学習 |
| LLMの調整 | RLHF(ChatGPTなど) | 人間のフィードバックを報酬として改善 |
⭐ AlphaGo(2016年)
DeepMindが開発した囲碁AI。強化学習とディープラーニングを組み合わせ、世界チャンピオンに勝利。
• 方策ネットワーク:次の手を予測
• 価値ネットワーク:勝率を予測
• 自己対戦:自分自身と対戦して強くなる
🎯 G検定で押さえるべきポイント
- 強化学習:エージェントが環境と相互作用し、報酬を最大化する行動を学習
- エージェント:学習する主体。環境:外の世界
- 状態・行動・報酬・方策:強化学習の基本要素
- 探索と活用のジレンマ:新しい行動を試すか、既知の良い行動を取るかのトレードオフ
- ε-greedy法:確率εでランダム行動、1-εで最良行動を選ぶ手法
- Q学習:状態-行動ペアの価値(Q値)を学習する基本的なアルゴリズム
- DQN:ディープラーニングとQ学習を組み合わせた手法。Experience Replayが特徴
- 方策勾配法:方策を直接学習。連続行動空間に有効
- AlphaGo:強化学習とDLで囲碁の世界チャンピオンに勝利(2016年)
- RLHF:人間のフィードバックを報酬として使う強化学習。ChatGPTなどで使用