強化学習（Reinforcement Learning）解説

🔰 初心者

強化学習って、教師あり学習や教師なし学習と何が違うんですか？

🎓 上級者

強化学習は「試行錯誤で学ぶ」タイプの学習だよ。正解を教えてもらうのではなく、自分で行動して、その結果の「報酬」から良い行動を学んでいくんだ。

📊 機械学習の3つのタイプ

📚 教師あり学習

正解ラベル付きデータで学習

例：「この画像は猫」と教える

用途：分類、回帰

🔍 教師なし学習

ラベルなしデータで構造を発見

例：似た顧客をグループ化

用途：クラスタリング、次元削減

🎮 強化学習

試行錯誤と報酬で学習

例：ゲームをプレイして上達

用途：ゲームAI、ロボット制御

💡 強化学習の特徴

• 正解を直接教えてもらわない（教師あり学習との違い）
• 行動の結果として報酬を受け取り、良い行動を学ぶ
• 将来の報酬を最大化するように行動を決める
• 「探索」と「活用」のバランスが重要

🔄 強化学習の基本構造

図1: エージェントは環境と相互作用しながら、報酬を最大化する行動を学習する

📖 強化学習の重要用語

🤖 エージェント（Agent）

学習する主体。環境を観察し、行動を選択し、報酬を受け取って学習する。

🌍 環境（Environment）

エージェントの外部にある世界。行動を受けて状態が変化し、報酬を返す。

📍 状態（State）

ある時点での環境の状況。エージェントが観察できる情報。

🎯 行動（Action）

エージェントが取れる選択肢。

🏆 報酬（Reward）

行動の結果としてもらえる数値。良い行動なら正、悪い行動なら負。

📜 方策（Policy）

状態から行動への対応付け。強化学習の目標は最適な方策を見つけること。

💰 価値関数（Value Function）

ある状態からどれくらいの報酬が期待できるかを表す関数。

⚖️ 探索と活用のジレンマ

図2: 探索と活用のバランスが強化学習の重要なポイント

🎰 ε-greedy（イプシロン・グリーディ）法

探索と活用のバランスを取る代表的な手法。

• 確率 ε（例：10%）でランダムな行動を選ぶ（探索）
• 確率 1−ε（例：90%）で今一番良いと思う行動を選ぶ（活用）

🧮 主要なアルゴリズム

📊 Q学習（Q-Learning）

最も基本的な強化学習アルゴリズム。各「状態と行動のペア」に対する価値（Q値）を学習する。

Q値：ある状態である行動を取ったとき、将来得られる報酬の期待値

🧠 DQN（Deep Q-Network）

Q学習にディープラーニングを組み合わせた手法。DeepMindが2013年に発表し、Atariゲームで人間超え。

• Q値をニューラルネットワークで近似
• Experience Replay：過去の経験をランダムに再利用
• Target Network：学習安定のため別のネットワークで目標値計算

🎯 方策勾配法（Policy Gradient）

Q値ではなく、方策（行動の確率分布）を直接学習する手法。

• 行動が連続値の場合に有効（例：ロボットの関節角度）
• 代表例：REINFORCE、Actor-Critic

🎯 強化学習の応用例

分野	具体例	説明
ゲームAI	AlphaGo、Atari	囲碁で世界チャンピオンに勝利
ロボット制御	歩行、物体操作	試行錯誤で動作を学習
自動運転	車線変更、駐車	シミュレータで安全な運転を学習
LLMの調整	RLHF（ChatGPTなど）	人間のフィードバックを報酬として改善

⭐ AlphaGo（2016年）

DeepMindが開発した囲碁AI。強化学習とディープラーニングを組み合わせ、世界チャンピオンに勝利。

• 方策ネットワーク：次の手を予測
• 価値ネットワーク：勝率を予測
• 自己対戦：自分自身と対戦して強くなる

🎯 G検定で押さえるべきポイント

強化学習：エージェントが環境と相互作用し、報酬を最大化する行動を学習
エージェント：学習する主体。環境：外の世界
状態・行動・報酬・方策：強化学習の基本要素
探索と活用のジレンマ：新しい行動を試すか、既知の良い行動を取るかのトレードオフ
ε-greedy法：確率εでランダム行動、1-εで最良行動を選ぶ手法
Q学習：状態-行動ペアの価値（Q値）を学習する基本的なアルゴリズム
DQN：ディープラーニングとQ学習を組み合わせた手法。Experience Replayが特徴
方策勾配法：方策を直接学習。連続行動空間に有効
AlphaGo：強化学習とDLで囲碁の世界チャンピオンに勝利（2016年）
RLHF：人間のフィードバックを報酬として使う強化学習。ChatGPTなどで使用