モデル解説 Page 5/5

音声（4モデル）＋強化学習（13モデル）＋マルチモーダル（4モデル）── 全21モデル

🎤 音声モデル（4モデル）

音声分野は大きく2つのタスクに分かれる。

ASR（音声認識）

音声 → テキスト

Speech-to-Text。人の声をテキストに変換。

DeepSpeech / Whisper

TTS（音声合成）

テキスト → 音声

Text-to-Speech。テキストを自然な音声に変換。

WaveNet / Tacotron

2014 DeepSpeech ─ 初期のEnd-to-End音声認識

Baidu（百度）開発。従来の音声認識は複数のモジュールを組み合わせていたが、DeepSpeechはRNN＋CTC損失で音声波形から直接テキストを出力するEnd-to-End方式を実現。

音声波形
スペクトログラム

→

RNN層
（双方向）

→

FC層

→

CTC損失
（入出力長の違いを吸収）

→

テキスト

試験ポイント：「End-to-End音声認識」「CTC（Connectionist Temporal Classification）で入力と出力の長さのズレを吸収」「Baidu開発」。

2022 Whisper ─ 大規模データで汎用音声認識

OpenAI開発。68万時間の多言語音声データで学習した汎用音声認識モデル。TransformerベースのEncoder-Decoder構造。

音声
メルスペクトログラム

→

Transformer
Encoder

→

Transformer
Decoder

→

テキスト

多言語対応
99言語以上

マルチタスク
認識・翻訳・言語検出

大規模データ
68万時間の教師ありデータ

試験ポイント：「Transformerベース」「多言語」「OpenAI」「弱教師あり学習（Webから集めたデータ）」。DeepSpeech（RNN＋CTC）との違いを押さえる。

2016 WaveNet ─ 超自然な音声合成

Google DeepMind開発。音声波形を1サンプルずつ自己回帰的に生成する。PixelCNNの音声版。人間に近い自然さを実現。

WaveNetの核心：Dilated Causal Convolution

因果的（未来を見ない）＋穴あき畳み込み（広い受容野）を組み合わせる

Dilation = 4（4つ飛ばし）

Dilation = 2（2つ飛ばし）

Dilation = 1（隣接）

← 次に生成するサンプル

穴を広げることで、パラメータを増やさず広い範囲の音声を参照できる

試験ポイント：「自己回帰」「Dilated Causal Convolution」「Google DeepMind」「1サンプルずつ生成（16kHz＝毎秒16,000サンプル）」「Googleアシスタントの音声に採用」。

2017 Tacotron ─ テキストから直接音声を生成

Google開発。テキスト→メルスペクトログラム→音声波形のEnd-to-End音声合成。Seq2Seq＋Attentionベース。

テキスト
"Hello"

→

Encoder
（文字→特徴）

→

Attention

→

Decoder
（メルスペクトログラム生成）

→

Vocoder
（WaveNetなど）

→

音声波形

WaveNet vs Tacotron：
WaveNet → 音声波形を直接生成するVocoder（声の質を決める）
Tacotron → テキストからメルスペクトログラムを作る（何を喋るか決める）
Tacotron2では最終段にWaveNetを使う組み合わせが一般的。

📊 音声モデル比較表

タスク	モデル	年	開発元	ベース技術	核心アイデア
ASR 音声→テキスト	DeepSpeech	2014	Baidu	RNN + CTC	End-to-End音声認識の先駆け
ASR 音声→テキスト	Whisper	2022	OpenAI	Transformer	68万時間、99言語、マルチタスク
TTS テキスト→音声	WaveNet	2016	DeepMind	Dilated Causal Conv	1サンプルずつ自己回帰生成
TTS テキスト→音声	Tacotron	2017	Google	Seq2Seq + Attention	テキスト→メルスペクトログラム

🎮 強化学習の基本概念

モデルの解説に入る前に、強化学習の基本サイクルを確認。

エージェント
（学習する主体）

行動(Action)
→

←
状態(State)
＋報酬(Reward)

環境
（ゲーム、現実世界）

エージェントは報酬を最大化する行動方策（Policy）を学習する

強化学習の2大アプローチ：
価値ベース（Value-based）：各状態・行動の「価値」を推定する → DQN系
方策ベース（Policy-based）：行動方策を直接学習する → A3C, PPO

2013-17 DQN系 ─ 価値ベース強化学習

DQN（2013）─ Deep Q-Network

DeepMind開発。Atariゲーム（ブロック崩しなど）を人間以上のレベルでプレイ。Q学習（各行動の価値を推定）にCNNを組み合わせた最初の成功例。

ゲーム画面
（状態 s）

→

CNN
（特徴抽出）

→

FC層
（Q値を出力）

→

↑ Q=8.2

→ Q=9.5 ←最大

↓ Q=3.1

Q値が最大の行動を選択

DQNの2つの工夫

Experience Replay

経験（状態, 行動, 報酬, 次の状態）をバッファに保存し、ランダムに取り出して学習。データの相関を減らし学習を安定化。

Target Network

Q値の更新目標を計算する「ターゲットネットワーク」を別途用意し、定期的に同期。学習の振動を防止。

🔄 DQN派生モデル

モデル	年	DQNの問題	解決策
Double DQN	2015	Q値を過大評価しがち	行動選択とQ値評価に別々のネットワークを使用して過大評価を抑制
Dueling DQN	2016	状態と行動の価値が混在	Q値を「状態の価値V」と「行動の利点A」に分離して推定。Q = V + A
NoisyNet	2017	探索が不十分（ε-greedy依存）	ネットワークの重みに学習可能なノイズを追加。探索を自動的に制御
Rainbow DQN	2017	—	上記全て＋Prioritized Replay＋Multi-step＋Distributional RL を全部合体

DQN系の覚え方：DQN（基本）→ 個別改良（Double, Dueling, NoisyNet等）→ Rainbow（全部入り）。Rainbowは「虹のように7つの技術を組み合わせた」のが名前の由来。

🏃 方策ベースモデル

A3C (2016)

Asynchronous Advantage Actor-Critic

Actor（方策）とCritic（価値）を同時に学習。

Actor
行動を選ぶ

Critic
行動を評価

Asynchronous = 非同期並列。複数のエージェントが別々の環境で同時に学習し、結果を共有。

PPO (2017)

Proximal Policy Optimization

OpenAI開発。方策の更新幅を制限（クリッピング）して安定した学習を実現。

方策の更新が大きすぎる → 学習が不安定
→ 更新幅に上限を設ける（clipping）
→ 安定＆高性能

ChatGPTのRLHFにも使われている！

試験ポイント：A3C→「Actor-Critic」「非同期並列学習」。PPO→「クリッピング」「安定した学習」「RLHF（ChatGPT）の基盤アルゴリズム」。

🏆 AlphaGo系 ─ DeepMindのゲームAI

進化の系譜

AlphaGo

2016 / 囲碁

人間の棋譜で事前学習
＋自己対戦で強化学習
＋モンテカルロ木探索

イ・セドルに勝利

→

AlphaGo Zero

2017 / 囲碁

人間の棋譜を使わない
自己対戦のみで学習
AlphaGoに100戦100勝

ルールだけから最強に

→

AlphaZero

2017 / 囲碁+チェス+将棋

AlphaGo Zeroを
汎用化
囲碁・チェス・将棋
全てで既存AI超え

1つのアルゴリズムで万能

超重要な進化の流れ：
AlphaGo → 人間の棋譜で学習 + 強化学習
AlphaGo Zero → 人間の知識なしで囲碁のみ。自己対戦のみ
AlphaZero → 人間の知識なし＋ 複数ゲームに汎用化
この3段階の違いは頻出。

🎯 ゲームAI応用モデル

AlphaStar (2019)

DeepMind

リアルタイム戦略ゲーム「StarCraft II」でプロに勝利。不完全情報＋リアルタイムのマルチエージェント環境。

囲碁（完全情報・交互手）→ RTS（不完全情報・リアルタイム・多数のユニット）への拡張

OpenAI Five (2019)

OpenAI

チーム対戦ゲーム「Dota 2」で人間のプロチームに勝利。5体のAIが協力プレイ。

大規模分散学習。PPOベース。チームワークの学習。

PONANZA (2017)

山本一成ら

将棋AI。電王戦でプロ棋士（佐藤天彦名人）に勝利した日本の将棋ソフト。

モンテカルロ木探索＋DL評価関数。日本のAI史の転機。

ゲームAIの対応表（頻出）：
囲碁 → AlphaGo / AlphaGo Zero / AlphaZero
チェス → AlphaZero（※Stockfishに勝利。StockfishはDL不使用の探索型AI）
将棋 → AlphaZero / PONANZA
StarCraft II → AlphaStar
Dota 2 → OpenAI Five
Atariゲーム → DQN

📊 強化学習モデル比較表

カテゴリ	モデル	年	手法	対象	キーワード
価値ベース（DQN系）	DQN	2013	Q学習+CNN	Atari	Experience Replay, Target Network
	Double DQN	2015	Q値の過大評価を抑制	Atari	行動選択と評価を分離
	Dueling DQN	2016	Q = V + A に分離	Atari	状態価値と行動利点
	NoisyNet	2017	ノイズで探索	Atari	学習可能なノイズ
	Rainbow	2017	7技術を統合	Atari	全部入り
方策ベース	A3C	2016	Actor-Critic	汎用	非同期並列学習
方策ベース	PPO	2017	方策制限（Clip）	汎用	RLHF、安定した学習
AlphaGo系	AlphaGo	2016	教師あり+強化学習+MCTS	囲碁	人間の棋譜を使用
	AlphaGo Zero	2017	自己対戦のみ+MCTS	囲碁	人間の知識不要
	AlphaZero	2017	自己対戦のみ+MCTS	囲碁+チェス+将棋	汎用化
ゲームAI 応用	AlphaStar	2019	マルチエージェント+RL	StarCraft II	不完全情報、リアルタイム
	OpenAI Five	2019	PPO+大規模分散	Dota 2	チーム協力プレイ
	PONANZA	2017	MCTS+DL評価	将棋	電王戦、日本の将棋AI

🌐 マルチモーダルモデル（4モデル）

テキスト・画像・音声など複数の種類のデータ（モダリティ）を統合的に扱うモデル。

2021 CLIP ─ テキストと画像を同じ空間に

Contrastive Language-Image Pre-training。OpenAI開発。テキストと画像をそれぞれエンコーダで同じベクトル空間にマッピング。ラベルなしで画像分類が可能（ゼロショット分類）。

画像

Image
Encoder

(ViT / ResNet)

共有ベクトル空間

「猫の画像」と
「a photo of a cat」が
近い位置に配置

対照学習（Contrastive Learning）で
正しいペアを近づける

テキスト

Text
Encoder

(Transformer)

試験ポイント：「対照学習（正しいペアを近づけ、間違いを遠ざける）」「ゼロショット分類（学習していないクラスも認識可能）」「4億組のテキスト-画像ペアで学習」。

2021 DALL-E ─ テキストから画像を生成

OpenAI開発。テキストの説明文から対応する画像を生成する。「アボカドの形をした椅子」のような想像的なプロンプトにも対応。

テキスト
"a cat wearing a hat"

→

Text Encoder
（CLIP）

→

画像生成モデル
DALL-E 1: dVAE
DALL-E 2: 拡散モデル

→

生成画像

DALL-E 1 (2021)

GPT-3ベース＋ dVAE（離散VAE）。テキストと画像トークンを1つの系列として自己回帰生成。

DALL-E 2 (2022)

CLIPのテキスト埋め込み → 拡散モデル（Diffusion Model）で画像生成。大幅に品質向上。

2022 Stable Diffusion ─ オープンソースの画像生成

Stability AI開発。拡散モデル（Diffusion Model）ベース。DALL-Eと異なりオープンソースで公開され、広く普及。

拡散モデルの仕組み

元画像

きれい

ノイズ追加 →

（拡散過程）

ノイズ

ランダム

← ノイズ除去

（逆拡散過程）

生成画像

テキスト条件付き

学習：ノイズを少しずつ加える過程を学習 → 推論：ノイズから少しずつ画像を復元

Stable Diffusionの特徴

潜在拡散モデル
画像空間ではなく
潜在空間で拡散 → 高速化

オープンソース
誰でも無料で利用可能
ローカル環境で実行可

U-Net + CLIP
U-Netでノイズ除去
CLIPでテキスト条件

試験ポイント：「拡散モデル（Diffusion Model）」「ノイズを加えて→除去する」「潜在空間（Latent Space）で処理」「オープンソース」。GANやVAEに続く第3の生成アプローチ。

2023 GPT-4V ─ 画像を理解するLLM

GPT-4 with Vision。OpenAI開発。テキストと画像の両方を入力として受け取り、テキストで応答するマルチモーダルLLM。

画像入力

テキスト入力

→

GPT-4V
マルチモーダルLLM

→

テキスト出力
画像の説明、質問応答、分析

できること：

画像の説明生成図表の読み取り画像に基づくQA OCR（文字読取）コード生成（UI画像から）

CLIPとの違い：
CLIP → テキストと画像を同じ空間に埋め込む。画像分類・検索に使用。画像は生成しない
GPT-4V → 画像を入力として理解し、テキストで回答する。会話型マルチモーダルAI

📊 マルチモーダルモデル比較表

モデル	年	開発元	入力	出力	核心アイデア
CLIP	2021	OpenAI	テキスト＋画像	ベクトル（類似度）	対照学習で共有空間。ゼロショット分類
DALL-E	2021	OpenAI	テキスト	画像	テキスト→画像生成。dVAE→拡散モデル
Stable Diffusion	2022	Stability AI	テキスト（＋画像）	画像	潜在拡散モデル。オープンソース
GPT-4V	2023	OpenAI	テキスト＋画像	テキスト	画像理解＋テキスト生成のマルチモーダルLLM

マルチモーダルの方向性：
CLIP → 画像とテキストの「橋渡し」
DALL-E / Stable Diffusion → テキストから画像を「作る」
GPT-4V → 画像を見て「理解する」

🏁 全69モデル領域別サマリー

領域	モデル数	最重要モデル	最重要キーワード
画像分類+軽量	12	AlexNet, ResNet, ViT	ReLU, スキップ結合, パッチ分割
物体検出	5	Faster R-CNN, YOLO	RPN, グリッド分割, 2段階vs1段階
セグメンテーション	6+姿勢1	U-Net, Mask R-CNN	スキップ結合, インスタンスSeg
画像生成	11	GAN, VAE, StyleGAN	G vs D, 潜在空間, モード崩壊
NLP	13	Transformer, BERT, GPT	Self-Attention, 双方向vs一方向
音声	4	Whisper, WaveNet	Transformer, Dilated Conv, CTC
強化学習	13	DQN, AlphaGo Zero, PPO	Q学習, 自己対戦, RLHF
マルチモーダル	4	CLIP, Stable Diffusion	対照学習, 拡散モデル
合計 69モデル		全5ページで解説完了

モデル解説 Page 5/5

🎤 音声モデル（4モデル）

ASR（音声認識）

TTS（音声合成）

2014 DeepSpeech ─ 初期のEnd-to-End音声認識

2022 Whisper ─ 大規模データで汎用音声認識

2016 WaveNet ─ 超自然な音声合成

WaveNetの核心：Dilated Causal Convolution

2017 Tacotron ─ テキストから直接音声を生成

📊 音声モデル比較表

🎮 強化学習の基本概念

2013-17 DQN系 ─ 価値ベース強化学習

DQN（2013）─ Deep Q-Network

DQNの2つの工夫

Experience Replay

Target Network

🔄 DQN派生モデル

🏃 方策ベースモデル

A3C (2016)

PPO (2017)

🏆 AlphaGo系 ─ DeepMindのゲームAI

進化の系譜

🎯 ゲームAI応用モデル

AlphaStar (2019)

OpenAI Five (2019)

PONANZA (2017)

📊 強化学習モデル比較表

🌐 マルチモーダルモデル（4モデル）

2021 CLIP ─ テキストと画像を同じ空間に

2021 DALL-E ─ テキストから画像を生成

DALL-E 1 (2021)

DALL-E 2 (2022)

2022 Stable Diffusion ─ オープンソースの画像生成

拡散モデルの仕組み

Stable Diffusionの特徴

2023 GPT-4V ─ 画像を理解するLLM

📊 マルチモーダルモデル比較表

🏁 全69モデル 領域別サマリー

🏁 全69モデル領域別サマリー