音声(4モデル)+ 強化学習(13モデル)+ マルチモーダル(4モデル)── 全21モデル
音声分野は大きく2つのタスクに分かれる。
音声 → テキスト
Speech-to-Text。人の声をテキストに変換。
DeepSpeech / Whisper
テキスト → 音声
Text-to-Speech。テキストを自然な音声に変換。
WaveNet / Tacotron
Baidu(百度)開発。従来の音声認識は複数のモジュールを組み合わせていたが、DeepSpeechはRNN+CTC損失で音声波形から直接テキストを出力するEnd-to-End方式を実現。
OpenAI開発。68万時間の多言語音声データで学習した汎用音声認識モデル。TransformerベースのEncoder-Decoder構造。
Google DeepMind開発。音声波形を1サンプルずつ自己回帰的に生成する。PixelCNNの音声版。人間に近い自然さを実現。
因果的(未来を見ない)+ 穴あき畳み込み(広い受容野)を組み合わせる
穴を広げることで、パラメータを増やさず広い範囲の音声を参照できる
Google開発。テキスト→メルスペクトログラム→音声波形のEnd-to-End音声合成。Seq2Seq+Attentionベース。
| タスク | モデル | 年 | 開発元 | ベース技術 | 核心アイデア |
|---|---|---|---|---|---|
| ASR 音声→テキスト |
DeepSpeech | 2014 | Baidu | RNN + CTC | End-to-End音声認識の先駆け |
| Whisper | 2022 | OpenAI | Transformer | 68万時間、99言語、マルチタスク | |
| TTS テキスト→音声 |
WaveNet | 2016 | DeepMind | Dilated Causal Conv | 1サンプルずつ自己回帰生成 |
| Tacotron | 2017 | Seq2Seq + Attention | テキスト→メルスペクトログラム |
モデルの解説に入る前に、強化学習の基本サイクルを確認。
エージェントは報酬を最大化する行動方策(Policy)を学習する
DeepMind開発。Atariゲーム(ブロック崩しなど)を人間以上のレベルでプレイ。Q学習(各行動の価値を推定)にCNNを組み合わせた最初の成功例。
Q値が最大の行動を選択
経験(状態, 行動, 報酬, 次の状態)をバッファに保存し、ランダムに取り出して学習。データの相関を減らし学習を安定化。
Q値の更新目標を計算する「ターゲットネットワーク」を別途用意し、定期的に同期。学習の振動を防止。
| モデル | 年 | DQNの問題 | 解決策 |
|---|---|---|---|
| Double DQN | 2015 | Q値を過大評価しがち | 行動選択とQ値評価に別々のネットワークを使用して過大評価を抑制 |
| Dueling DQN | 2016 | 状態と行動の価値が混在 | Q値を「状態の価値V」と「行動の利点A」に分離して推定。Q = V + A |
| NoisyNet | 2017 | 探索が不十分(ε-greedy依存) | ネットワークの重みに学習可能なノイズを追加。探索を自動的に制御 |
| Rainbow DQN | 2017 | — | 上記全て+Prioritized Replay+Multi-step+Distributional RL を全部合体 |
Asynchronous Advantage Actor-Critic
Actor(方策)とCritic(価値)を同時に学習。
Asynchronous = 非同期並列。複数のエージェントが別々の環境で同時に学習し、結果を共有。
Proximal Policy Optimization
OpenAI開発。方策の更新幅を制限(クリッピング)して安定した学習を実現。
ChatGPTのRLHFにも使われている!
DeepMind
リアルタイム戦略ゲーム「StarCraft II」でプロに勝利。不完全情報+リアルタイムのマルチエージェント環境。
囲碁(完全情報・交互手)→ RTS(不完全情報・リアルタイム・多数のユニット)への拡張
OpenAI
チーム対戦ゲーム「Dota 2」で人間のプロチームに勝利。5体のAIが協力プレイ。
大規模分散学習。PPOベース。チームワークの学習。
山本一成ら
将棋AI。電王戦でプロ棋士(佐藤天彦名人)に勝利した日本の将棋ソフト。
モンテカルロ木探索+DL評価関数。日本のAI史の転機。
| カテゴリ | モデル | 年 | 手法 | 対象 | キーワード |
|---|---|---|---|---|---|
| 価値ベース (DQN系) |
DQN | 2013 | Q学習+CNN | Atari | Experience Replay, Target Network |
| Double DQN | 2015 | Q値の過大評価を抑制 | Atari | 行動選択と評価を分離 | |
| Dueling DQN | 2016 | Q = V + A に分離 | Atari | 状態価値と行動利点 | |
| NoisyNet | 2017 | ノイズで探索 | Atari | 学習可能なノイズ | |
| Rainbow | 2017 | 7技術を統合 | Atari | 全部入り | |
| 方策ベース | A3C | 2016 | Actor-Critic | 汎用 | 非同期並列学習 |
| PPO | 2017 | 方策制限(Clip) | 汎用 | RLHF、安定した学習 | |
| AlphaGo系 | AlphaGo | 2016 | 教師あり+強化学習+MCTS | 囲碁 | 人間の棋譜を使用 |
| AlphaGo Zero | 2017 | 自己対戦のみ+MCTS | 囲碁 | 人間の知識不要 | |
| AlphaZero | 2017 | 自己対戦のみ+MCTS | 囲碁+チェス+将棋 | 汎用化 | |
| ゲームAI 応用 |
AlphaStar | 2019 | マルチエージェント+RL | StarCraft II | 不完全情報、リアルタイム |
| OpenAI Five | 2019 | PPO+大規模分散 | Dota 2 | チーム協力プレイ | |
| PONANZA | 2017 | MCTS+DL評価 | 将棋 | 電王戦、日本の将棋AI |
テキスト・画像・音声など複数の種類のデータ(モダリティ)を統合的に扱うモデル。
Contrastive Language-Image Pre-training。OpenAI開発。テキストと画像をそれぞれエンコーダで同じベクトル空間にマッピング。ラベルなしで画像分類が可能(ゼロショット分類)。
OpenAI開発。テキストの説明文から対応する画像を生成する。「アボカドの形をした椅子」のような想像的なプロンプトにも対応。
GPT-3ベース + dVAE(離散VAE)。テキストと画像トークンを1つの系列として自己回帰生成。
CLIPのテキスト埋め込み → 拡散モデル(Diffusion Model)で画像生成。大幅に品質向上。
Stability AI開発。拡散モデル(Diffusion Model)ベース。DALL-Eと異なりオープンソースで公開され、広く普及。
学習:ノイズを少しずつ加える過程を学習 → 推論:ノイズから少しずつ画像を復元
GPT-4 with Vision。OpenAI開発。テキストと画像の両方を入力として受け取り、テキストで応答するマルチモーダルLLM。
できること:
| モデル | 年 | 開発元 | 入力 | 出力 | 核心アイデア |
|---|---|---|---|---|---|
| CLIP | 2021 | OpenAI | テキスト+画像 | ベクトル(類似度) | 対照学習で共有空間。ゼロショット分類 |
| DALL-E | 2021 | OpenAI | テキスト | 画像 | テキスト→画像生成。dVAE→拡散モデル |
| Stable Diffusion | 2022 | Stability AI | テキスト(+画像) | 画像 | 潜在拡散モデル。オープンソース |
| GPT-4V | 2023 | OpenAI | テキスト+画像 | テキスト | 画像理解+テキスト生成のマルチモーダルLLM |
| 領域 | モデル数 | 最重要モデル | 最重要キーワード |
|---|---|---|---|
| 画像分類+軽量 | 12 | AlexNet, ResNet, ViT | ReLU, スキップ結合, パッチ分割 |
| 物体検出 | 5 | Faster R-CNN, YOLO | RPN, グリッド分割, 2段階vs1段階 |
| セグメンテーション | 6+姿勢1 | U-Net, Mask R-CNN | スキップ結合, インスタンスSeg |
| 画像生成 | 11 | GAN, VAE, StyleGAN | G vs D, 潜在空間, モード崩壊 |
| NLP | 13 | Transformer, BERT, GPT | Self-Attention, 双方向vs一方向 |
| 音声 | 4 | Whisper, WaveNet | Transformer, Dilated Conv, CTC |
| 強化学習 | 13 | DQN, AlphaGo Zero, PPO | Q学習, 自己対戦, RLHF |
| マルチモーダル | 4 | CLIP, Stable Diffusion | 対照学習, 拡散モデル |
| 合計 69モデル | 全5ページで解説完了 | ||