モデル解説 Page 3/5
画像生成(11モデル)── GAN系 / VAE / 自己回帰 / スタイル変換
🎨 画像生成モデルの4大カテゴリ
GAN系
生成器 vs 判別器
GAN, DCGAN, pix2pix, CycleGAN, StackGAN, StyleGAN, SRGAN, ESRGAN
自己回帰系
1ピクセルずつ順番に生成
PixelCNN
その他
特徴量の操作で画風変換
Neural Style Transfer
2014 GAN ─ 画像生成の革命
Generative Adversarial Network(敵対的生成ネットワーク)。Goodfellow(グッドフェロー)が提案。生成器(Generator)と判別器(Discriminator)を競わせて学習させるという画期的なアイデア。
GANの仕組み:偽札犯と警察の例え
🎭
Generator(生成器)
=偽札犯
ランダムノイズ z から
偽の画像を生成
「本物そっくりの画像を作りたい」
🔍
Discriminator(判別器)
=警察
入力画像が
本物か偽物かを判定
「偽物を見破りたい」
互いに競い合う(敵対的学習)ことで、G は本物そっくりの画像を生成できるようになる
試験ポイント:「Generator(G)と Discriminator(D)の敵対的学習」「ノイズから画像を生成」「モード崩壊(mode collapse)が弱点」。GANの提案者はGoodfellow。
2015 DCGAN ─ GANにCNNを導入
Deep Convolutional GAN。元のGANの全結合層をCNN(畳み込み/逆畳み込み)に置き換え、安定した画像生成を実現。
DCGANの構造
ノイズ z
100次元
→
転置Conv
(アップサンプリング)
→
転置Conv
→
転置Conv
→
生成画像
64×64
DCGANの3つのルール
①
プーリング層を使わない
(ストライド畳み込みで代替)
②
Batch Normalization使用
(学習の安定化)
③
全結合層を使わない
(全て畳み込みで構成)
🔄 条件付き画像変換GAN
pix2pix (2017)
ペア画像で変換学習
入力Aと出力Bのペアデータが必要。
線画→写真、白黒→カラーなど。
条件付きGAN(cGAN)の一種。
✗ ペアデータの収集が大変
CycleGAN (2017)
ペアデータ不要!
A→B→Aのサイクルで元に戻れることを条件に学習(サイクル一貫性損失)。
ペアでない画像の集合だけでOK。
✓ 馬⇌シマウマ、写真⇌モネ風
pix2pix vs CycleGAN:ペアデータ「あり」→ pix2pix、ペアデータ「なし」→ CycleGAN。この対比は頻出。
✨ 高品質画像生成GAN
StackGAN (2017)
テキスト→画像を段階的に生成
テキスト
"赤い鳥"
→
Stage 1
低解像度
→
Stage 2
高解像度
2段階(Stack=積み重ね)で段階的に解像度を上げる。テキスト→画像の初期モデル。
StyleGAN (2019)
NVIDIA開発。スタイル制御で超高品質顔画像
ノイズ z
→
Mapping
Network
→
スタイル w
各層に注入
粗いスタイル(ポーズ、顔型)と細かいスタイル(色、質感)を独立に制御可能。
「この人は実在しない」で話題に。
2017-18 SRGAN / ESRGAN ─ 超解像
低解像度の画像を高解像度に変換するSuper-Resolution(超解像)タスク。
低解像度
ぼやけた画像
→
Generator
(ResBlock × N)
→
高解像度
鮮明な画像
SRGAN (2017)
Super-Resolution GAN。GANの敵対的学習で「人間が見て自然に見える」超解像を実現。知覚品質(見た目の自然さ)を重視。
ESRGAN (2018)
Enhanced SRGAN。SRGANの改良版。Residual-in-Residual Dense Block(RRDB)を使い、BNを除去。よりシャープで自然な結果。
2013 VAE ─ 潜在空間で生成を制御
Variational Autoencoder(変分オートエンコーダ)。通常のAutoencoder(AE)に確率的な仕組みを加えたもの。
VAEの構造
入力画像
→
Encoder
(圧縮)
→
潜在空間 z
μ, σ → サンプリング
→
Decoder
(復元)
→
再構成画像
AE vs VAE の違い
通常の AE
入力を圧縮→復元するだけ。
潜在空間がスカスカ&不規則。
✗ 新しい画像を生成できない
VAE
潜在空間を正規分布に強制。
連続的で滑らかな空間になる。
✓ 潜在空間からサンプリングして新しい画像を生成可能
GAN vs VAE:
GAN → 画像の品質が高いが、多様性に欠けることがある(モード崩壊)
VAE → 多様な生成が可能だが、画像がぼやけがち
試験では「潜在空間」「正規分布に強制」「Reparameterization Trick」がポイント。
2016 PixelCNN ─ 1ピクセルずつ順番に生成
自己回帰モデル。画像の左上から1ピクセルずつ、これまで生成したピクセルを条件として次のピクセルを予測・生成。
P(xi) = P(xi | x1, x2, ..., xi-1)
過去のピクセルに基づいて次のピクセルの確率分布を予測。マスク付き畳み込みで「未来」の情報を見ないようにする。
試験ポイント:「自己回帰(Autoregressive)モデル」「生成が遅い(1ピクセルずつ)」「正確な確率分布を学習できる」。GANやVAEと対比される。
2015 Neural Style Transfer ─ 画風変換
1枚の写真に、別の絵画のスタイル(画風)を適用する技術。CNNの中間層の特徴量を使って「コンテンツ」と「スタイル」を分離・再合成。
コンテンツ画像
(写真)
CNNの高層で抽出
→ 物体の構造
+
スタイル画像
(ゴッホの絵など)
Gram行列で抽出
→ テクスチャ・色彩
=
合成画像
(ゴッホ風の写真)
コンテンツ損失+
スタイル損失を最小化
試験ポイント:「Gram行列(スタイル表現)」「コンテンツ損失+スタイル損失」「CNNの中間特徴を活用」。GANとは異なるアプローチで画像変換を実現。
🌳 GAN派生モデルの系統
GAN (2014)
DCGAN (2015) ─ CNNを導入して安定化
pix2pix (2017) ─ ペア画像で条件付き変換
CycleGAN (2017) ─ ペアなしで画像変換(サイクル一貫性)
StackGAN (2017) ─ テキスト→画像を段階的に
StyleGAN (2019) ─ スタイル制御で超高品質顔画像
SRGAN (2017) ─ 超解像(低解像度→高解像度)
ESRGAN (2018) ─ SRGANの改良版
📊 全11モデル比較表
| カテゴリ | モデル | 年 | 核心アイデア | 入力→出力 |
| GAN系 |
GAN | 2014 | G vs D の敵対的学習 | ノイズ→画像 |
| DCGAN | 2015 | GAN+CNN | ノイズ→画像 |
| pix2pix | 2017 | ペアデータで条件付き変換 | 画像A→画像B |
| CycleGAN | 2017 | サイクル一貫性(ペア不要) | 画像A⇌画像B |
| StackGAN | 2017 | 段階的に解像度を上げる | テキスト→画像 |
| StyleGAN | 2019 | スタイル制御、Mapping Network | ノイズ→高品質顔画像 |
| SRGAN/ESRGAN | 2017/18 | 超解像 | 低解像度→高解像度 |
| VAE |
VAE | 2013 | 潜在空間を正規分布に強制 | ノイズ→画像 |
| 自己回帰 |
PixelCNN | 2016 | 1ピクセルずつ順次生成 | 条件→画像 |
| 画風変換 |
Neural Style Transfer | 2015 | Gram行列でスタイル抽出 | 写真+画風→合成 |
3大生成アプローチの比較(超重要):
GAN → 高品質だがモード崩壊のリスク。学習が不安定
VAE → 安定した学習、多様な生成が可能だが画像がぼやけがち
自己回帰(PixelCNN等) → 正確な確率分布を学習できるが生成が遅い