モデル解説 Page 5/5

音声(4モデル)+ 強化学習(13モデル)+ マルチモーダル(4モデル)── 全21モデル

🎤 音声モデル(4モデル)

音声分野は大きく2つのタスクに分かれる。

ASR(音声認識)

音声 → テキスト

Speech-to-Text。人の声をテキストに変換。

DeepSpeech / Whisper

TTS(音声合成)

テキスト → 音声

Text-to-Speech。テキストを自然な音声に変換。

WaveNet / Tacotron

2014 DeepSpeech ─ 初期のEnd-to-End音声認識

Baidu(百度)開発。従来の音声認識は複数のモジュールを組み合わせていたが、DeepSpeechはRNN+CTC損失で音声波形から直接テキストを出力するEnd-to-End方式を実現。

音声波形
スペクトログラム
RNN層
(双方向)
FC層
CTC損失
(入出力長の違いを吸収)
テキスト
試験ポイント:「End-to-End音声認識」「CTC(Connectionist Temporal Classification)で入力と出力の長さのズレを吸収」「Baidu開発」。

2022 Whisper ─ 大規模データで汎用音声認識

OpenAI開発。68万時間の多言語音声データで学習した汎用音声認識モデル。TransformerベースのEncoder-Decoder構造。

音声
メルスペクトログラム
Transformer
Encoder
Transformer
Decoder
テキスト
多言語対応
99言語以上
マルチタスク
認識・翻訳・言語検出
大規模データ
68万時間の教師ありデータ
試験ポイント:「Transformerベース」「多言語」「OpenAI」「弱教師あり学習(Webから集めたデータ)」。DeepSpeech(RNN+CTC)との違いを押さえる。

2016 WaveNet ─ 超自然な音声合成

Google DeepMind開発。音声波形を1サンプルずつ自己回帰的に生成する。PixelCNNの音声版。人間に近い自然さを実現。

WaveNetの核心:Dilated Causal Convolution

因果的(未来を見ない)+ 穴あき畳み込み(広い受容野)を組み合わせる

Dilation = 4(4つ飛ばし)
Dilation = 2(2つ飛ばし)
Dilation = 1(隣接)
← 次に生成するサンプル

穴を広げることで、パラメータを増やさず広い範囲の音声を参照できる

試験ポイント:「自己回帰」「Dilated Causal Convolution」「Google DeepMind」「1サンプルずつ生成(16kHz=毎秒16,000サンプル)」「Googleアシスタントの音声に採用」。

2017 Tacotron ─ テキストから直接音声を生成

Google開発。テキスト→メルスペクトログラム→音声波形のEnd-to-End音声合成。Seq2Seq+Attentionベース。

テキスト
"Hello"
Encoder
(文字→特徴)
Attention
Decoder
(メルスペクトログラム生成)
Vocoder
(WaveNetなど)
音声波形
WaveNet vs Tacotron:
WaveNet → 音声波形を直接生成するVocoder(声の質を決める)
Tacotron → テキストからメルスペクトログラムを作る(何を喋るか決める)
Tacotron2では最終段にWaveNetを使う組み合わせが一般的。

📊 音声モデル比較表

タスクモデル開発元ベース技術核心アイデア
ASR
音声→テキスト
DeepSpeech2014BaiduRNN + CTCEnd-to-End音声認識の先駆け
Whisper2022OpenAITransformer68万時間、99言語、マルチタスク
TTS
テキスト→音声
WaveNet2016DeepMindDilated Causal Conv1サンプルずつ自己回帰生成
Tacotron2017GoogleSeq2Seq + Attentionテキスト→メルスペクトログラム

🎮 強化学習の基本概念

モデルの解説に入る前に、強化学習の基本サイクルを確認。

エージェント
(学習する主体)
行動(Action)

状態(State)
+報酬(Reward)
環境
(ゲーム、現実世界)

エージェントは報酬を最大化する行動方策(Policy)を学習する

強化学習の2大アプローチ:
価値ベース(Value-based):各状態・行動の「価値」を推定する → DQN系
方策ベース(Policy-based):行動方策を直接学習する → A3C, PPO

2013-17 DQN系 ─ 価値ベース強化学習

DQN(2013)─ Deep Q-Network

DeepMind開発。Atariゲーム(ブロック崩しなど)を人間以上のレベルでプレイ。Q学習(各行動の価値を推定)にCNNを組み合わせた最初の成功例。

ゲーム画面
(状態 s)
CNN
(特徴抽出)
FC層
(Q値を出力)
↑ Q=8.2
→ Q=9.5 ←最大
↓ Q=3.1

Q値が最大の行動を選択

DQNの2つの工夫

Experience Replay

経験(状態, 行動, 報酬, 次の状態)をバッファに保存し、ランダムに取り出して学習。データの相関を減らし学習を安定化。

Target Network

Q値の更新目標を計算する「ターゲットネットワーク」を別途用意し、定期的に同期。学習の振動を防止。

🔄 DQN派生モデル

モデルDQNの問題解決策
Double DQN2015 Q値を過大評価しがち 行動選択Q値評価に別々のネットワークを使用して過大評価を抑制
Dueling DQN2016 状態と行動の価値が混在 Q値を「状態の価値V」と「行動の利点A」に分離して推定。Q = V + A
NoisyNet2017 探索が不十分(ε-greedy依存) ネットワークの重みに学習可能なノイズを追加。探索を自動的に制御
Rainbow DQN2017 上記全て+Prioritized Replay+Multi-step+Distributional RL を全部合体
DQN系の覚え方:DQN(基本)→ 個別改良(Double, Dueling, NoisyNet等)→ Rainbow(全部入り)。Rainbowは「虹のように7つの技術を組み合わせた」のが名前の由来。

🏃 方策ベースモデル

A3C (2016)

Asynchronous Advantage Actor-Critic

Actor(方策)Critic(価値)を同時に学習。

Actor
行動を選ぶ
Critic
行動を評価

Asynchronous = 非同期並列。複数のエージェントが別々の環境で同時に学習し、結果を共有。

PPO (2017)

Proximal Policy Optimization

OpenAI開発。方策の更新幅を制限(クリッピング)して安定した学習を実現。

方策の更新が大きすぎる → 学習が不安定
→ 更新幅に上限を設ける(clipping)
→ 安定&高性能

ChatGPTのRLHFにも使われている!

試験ポイント:A3C→「Actor-Critic」「非同期並列学習」。PPO→「クリッピング」「安定した学習」「RLHF(ChatGPT)の基盤アルゴリズム」。

🏆 AlphaGo系 ─ DeepMindのゲームAI

進化の系譜

AlphaGo
2016 / 囲碁
人間の棋譜で事前学習
+ 自己対戦で強化学習
+ モンテカルロ木探索
イ・セドルに勝利
AlphaGo Zero
2017 / 囲碁
人間の棋譜を使わない
自己対戦のみで学習
AlphaGoに100戦100勝
ルールだけから最強に
AlphaZero
2017 / 囲碁+チェス+将棋
AlphaGo Zeroを
汎用化
囲碁・チェス・将棋
全てで既存AI超え
1つのアルゴリズムで万能
超重要な進化の流れ:
AlphaGo → 人間の棋譜で学習 + 強化学習
AlphaGo Zero → 人間の知識なしで囲碁のみ。自己対戦のみ
AlphaZero → 人間の知識なし + 複数ゲームに汎用化
この3段階の違いは頻出。

🎯 ゲームAI応用モデル

AlphaStar (2019)

DeepMind

リアルタイム戦略ゲーム「StarCraft II」でプロに勝利。不完全情報+リアルタイムのマルチエージェント環境。

囲碁(完全情報・交互手)→ RTS(不完全情報・リアルタイム・多数のユニット)への拡張

OpenAI Five (2019)

OpenAI

チーム対戦ゲーム「Dota 2」で人間のプロチームに勝利。5体のAIが協力プレイ。

大規模分散学習。PPOベース。チームワークの学習。

PONANZA (2017)

山本一成ら

将棋AI。電王戦でプロ棋士(佐藤天彦名人)に勝利した日本の将棋ソフト。

モンテカルロ木探索+DL評価関数。日本のAI史の転機。

ゲームAIの対応表(頻出):
囲碁 → AlphaGo / AlphaGo Zero / AlphaZero
チェス → AlphaZero(※Stockfishに勝利。StockfishはDL不使用の探索型AI)
将棋 → AlphaZero / PONANZA
StarCraft II → AlphaStar
Dota 2 → OpenAI Five
Atariゲーム → DQN

📊 強化学習モデル比較表

カテゴリモデル手法対象キーワード
価値ベース
(DQN系)
DQN2013Q学習+CNNAtariExperience Replay, Target Network
Double DQN2015Q値の過大評価を抑制Atari行動選択と評価を分離
Dueling DQN2016Q = V + A に分離Atari状態価値と行動利点
NoisyNet2017ノイズで探索Atari学習可能なノイズ
Rainbow20177技術を統合Atari全部入り
方策ベース A3C2016Actor-Critic汎用非同期並列学習
PPO2017方策制限(Clip)汎用RLHF、安定した学習
AlphaGo系 AlphaGo2016教師あり+強化学習+MCTS囲碁人間の棋譜を使用
AlphaGo Zero2017自己対戦のみ+MCTS囲碁人間の知識不要
AlphaZero2017自己対戦のみ+MCTS囲碁+チェス+将棋汎用化
ゲームAI
応用
AlphaStar2019マルチエージェント+RLStarCraft II不完全情報、リアルタイム
OpenAI Five2019PPO+大規模分散Dota 2チーム協力プレイ
PONANZA2017MCTS+DL評価将棋電王戦、日本の将棋AI

🌐 マルチモーダルモデル(4モデル)

テキスト・画像・音声など複数の種類のデータ(モダリティ)を統合的に扱うモデル。

2021 CLIP ─ テキストと画像を同じ空間に

Contrastive Language-Image Pre-training。OpenAI開発。テキストと画像をそれぞれエンコーダで同じベクトル空間にマッピング。ラベルなしで画像分類が可能(ゼロショット分類)。

画像
Image
Encoder
(ViT / ResNet)
共有ベクトル空間
「猫の画像」と
「a photo of a cat」が
近い位置に配置
対照学習(Contrastive Learning)で
正しいペアを近づける
テキスト
Text
Encoder
(Transformer)
試験ポイント:「対照学習(正しいペアを近づけ、間違いを遠ざける)」「ゼロショット分類(学習していないクラスも認識可能)」「4億組のテキスト-画像ペアで学習」。

2021 DALL-E ─ テキストから画像を生成

OpenAI開発。テキストの説明文から対応する画像を生成する。「アボカドの形をした椅子」のような想像的なプロンプトにも対応。

テキスト
"a cat wearing a hat"
Text Encoder
(CLIP)
画像生成モデル
DALL-E 1: dVAE
DALL-E 2: 拡散モデル
生成画像

DALL-E 1 (2021)

GPT-3ベース + dVAE(離散VAE)。テキストと画像トークンを1つの系列として自己回帰生成。

DALL-E 2 (2022)

CLIPのテキスト埋め込み → 拡散モデル(Diffusion Model)で画像生成。大幅に品質向上。

2022 Stable Diffusion ─ オープンソースの画像生成

Stability AI開発。拡散モデル(Diffusion Model)ベース。DALL-Eと異なりオープンソースで公開され、広く普及。

拡散モデルの仕組み

元画像
きれい
ノイズ追加 →
(拡散過程)
ノイズ
ランダム
← ノイズ除去
(逆拡散過程)
生成画像
テキスト条件付き

学習:ノイズを少しずつ加える過程を学習 → 推論:ノイズから少しずつ画像を復元

Stable Diffusionの特徴

潜在拡散モデル
画像空間ではなく
潜在空間で拡散 → 高速化
オープンソース
誰でも無料で利用可能
ローカル環境で実行可
U-Net + CLIP
U-Netでノイズ除去
CLIPでテキスト条件
試験ポイント:「拡散モデル(Diffusion Model)」「ノイズを加えて→除去する」「潜在空間(Latent Space)で処理」「オープンソース」。GANやVAEに続く第3の生成アプローチ。

2023 GPT-4V ─ 画像を理解するLLM

GPT-4 with Vision。OpenAI開発。テキストと画像の両方を入力として受け取り、テキストで応答するマルチモーダルLLM。

画像入力
テキスト入力
GPT-4V
マルチモーダルLLM
テキスト出力
画像の説明、質問応答、分析

できること:

画像の説明生成 図表の読み取り 画像に基づくQA OCR(文字読取) コード生成(UI画像から)
CLIPとの違い:
CLIP → テキストと画像を同じ空間に埋め込む。画像分類・検索に使用。画像は生成しない
GPT-4V → 画像を入力として理解し、テキストで回答する。会話型マルチモーダルAI

📊 マルチモーダルモデル比較表

モデル開発元入力出力核心アイデア
CLIP2021OpenAIテキスト+画像ベクトル(類似度)対照学習で共有空間。ゼロショット分類
DALL-E2021OpenAIテキスト画像テキスト→画像生成。dVAE→拡散モデル
Stable Diffusion2022Stability AIテキスト(+画像)画像潜在拡散モデル。オープンソース
GPT-4V2023OpenAIテキスト+画像テキスト画像理解+テキスト生成のマルチモーダルLLM
マルチモーダルの方向性:
CLIP → 画像とテキストの「橋渡し」
DALL-E / Stable Diffusion → テキストから画像を「作る」
GPT-4V → 画像を見て「理解する」

🏁 全69モデル 領域別サマリー

領域モデル数最重要モデル最重要キーワード
画像分類+軽量12AlexNet, ResNet, ViTReLU, スキップ結合, パッチ分割
物体検出5Faster R-CNN, YOLORPN, グリッド分割, 2段階vs1段階
セグメンテーション6+姿勢1U-Net, Mask R-CNNスキップ結合, インスタンスSeg
画像生成11GAN, VAE, StyleGANG vs D, 潜在空間, モード崩壊
NLP13Transformer, BERT, GPTSelf-Attention, 双方向vs一方向
音声4Whisper, WaveNetTransformer, Dilated Conv, CTC
強化学習13DQN, AlphaGo Zero, PPOQ学習, 自己対戦, RLHF
マルチモーダル4CLIP, Stable Diffusion対照学習, 拡散モデル
合計 69モデル全5ページで解説完了