モデル解説 Page 3/5

画像生成(11モデル)── GAN系 / VAE / 自己回帰 / スタイル変換

🎨 画像生成モデルの4大カテゴリ

GAN系

生成器 vs 判別器

GAN, DCGAN, pix2pix, CycleGAN, StackGAN, StyleGAN, SRGAN, ESRGAN

VAE系

潜在空間に圧縮→生成

VAE

自己回帰系

1ピクセルずつ順番に生成

PixelCNN

その他

特徴量の操作で画風変換

Neural Style Transfer

2014 GAN ─ 画像生成の革命

Generative Adversarial Network(敵対的生成ネットワーク)。Goodfellow(グッドフェロー)が提案。生成器(Generator)と判別器(Discriminator)を競わせて学習させるという画期的なアイデア。

GANの仕組み:偽札犯と警察の例え

🎭
Generator(生成器)
=偽札犯
ランダムノイズ z から
偽の画像を生成
「本物そっくりの画像を作りたい」
生成画像
本物/偽物?
🔍
Discriminator(判別器)
=警察
入力画像が
本物か偽物かを判定
「偽物を見破りたい」
互いに競い合う(敵対的学習)ことで、G は本物そっくりの画像を生成できるようになる
試験ポイント:「Generator(G)と Discriminator(D)の敵対的学習」「ノイズから画像を生成」「モード崩壊(mode collapse)が弱点」。GANの提案者はGoodfellow。

2015 DCGAN ─ GANにCNNを導入

Deep Convolutional GAN。元のGANの全結合層をCNN(畳み込み/逆畳み込み)に置き換え、安定した画像生成を実現。

DCGANの構造

ノイズ z
100次元
転置Conv
(アップサンプリング)
転置Conv
転置Conv
生成画像
64×64

DCGANの3つのルール


プーリング層を使わない
(ストライド畳み込みで代替)

Batch Normalization使用
(学習の安定化)

全結合層を使わない
(全て畳み込みで構成)

🔄 条件付き画像変換GAN

pix2pix (2017)

ペア画像で変換学習

線画
写真

入力Aと出力Bのペアデータが必要。
線画→写真、白黒→カラーなど。
条件付きGAN(cGAN)の一種。

✗ ペアデータの収集が大変

CycleGAN (2017)

ペアデータ不要!

シマウマ

A→B→Aのサイクルで元に戻れることを条件に学習(サイクル一貫性損失)。
ペアでない画像の集合だけでOK。

✓ 馬⇌シマウマ、写真⇌モネ風

pix2pix vs CycleGAN:ペアデータ「あり」→ pix2pix、ペアデータ「なし」→ CycleGAN。この対比は頻出。

✨ 高品質画像生成GAN

StackGAN (2017)

テキスト→画像を段階的に生成

テキスト
"赤い鳥"
Stage 1
低解像度
Stage 2
高解像度

2段階(Stack=積み重ね)で段階的に解像度を上げる。テキスト→画像の初期モデル。

StyleGAN (2019)

NVIDIA開発。スタイル制御で超高品質顔画像

ノイズ z
Mapping
Network
スタイル w
各層に注入

粗いスタイル(ポーズ、顔型)と細かいスタイル(色、質感)を独立に制御可能。
「この人は実在しない」で話題に。

2017-18 SRGAN / ESRGAN ─ 超解像

低解像度の画像を高解像度に変換するSuper-Resolution(超解像)タスク。

低解像度
ぼやけた画像
Generator
(ResBlock × N)
高解像度
鮮明な画像

SRGAN (2017)

Super-Resolution GAN。GANの敵対的学習で「人間が見て自然に見える」超解像を実現。知覚品質(見た目の自然さ)を重視。

ESRGAN (2018)

Enhanced SRGAN。SRGANの改良版。Residual-in-Residual Dense Block(RRDB)を使い、BNを除去。よりシャープで自然な結果。

2013 VAE ─ 潜在空間で生成を制御

Variational Autoencoder(変分オートエンコーダ)。通常のAutoencoder(AE)に確率的な仕組みを加えたもの。

VAEの構造

入力画像
Encoder
(圧縮)
潜在空間 z
μ, σ → サンプリング
Decoder
(復元)
再構成画像

AE vs VAE の違い

通常の AE

入力を圧縮→復元するだけ。
潜在空間がスカスカ&不規則。

✗ 新しい画像を生成できない

VAE

潜在空間を正規分布に強制。
連続的で滑らかな空間になる。

✓ 潜在空間からサンプリングして新しい画像を生成可能

GAN vs VAE:
GAN → 画像の品質が高いが、多様性に欠けることがある(モード崩壊)
VAE → 多様な生成が可能だが、画像がぼやけがち
試験では「潜在空間」「正規分布に強制」「Reparameterization Trick」がポイント。

2016 PixelCNN ─ 1ピクセルずつ順番に生成

自己回帰モデル。画像の左上から1ピクセルずつ、これまで生成したピクセルを条件として次のピクセルを予測・生成。

生成済み  今生成中  未生成

P(xi) = P(xi | x1, x2, ..., xi-1)

過去のピクセルに基づいて次のピクセルの確率分布を予測。マスク付き畳み込みで「未来」の情報を見ないようにする。

試験ポイント:「自己回帰(Autoregressive)モデル」「生成が遅い(1ピクセルずつ)」「正確な確率分布を学習できる」。GANやVAEと対比される。

2015 Neural Style Transfer ─ 画風変換

1枚の写真に、別の絵画のスタイル(画風)を適用する技術。CNNの中間層の特徴量を使って「コンテンツ」と「スタイル」を分離・再合成。

コンテンツ画像
(写真)
CNNの高層で抽出
→ 物体の構造
スタイル画像
(ゴッホの絵など)
Gram行列で抽出
→ テクスチャ・色彩
合成画像
(ゴッホ風の写真)
コンテンツ損失+
スタイル損失を最小化
試験ポイント:「Gram行列(スタイル表現)」「コンテンツ損失+スタイル損失」「CNNの中間特徴を活用」。GANとは異なるアプローチで画像変換を実現。

🌳 GAN派生モデルの系統

GAN (2014)
DCGAN (2015) ─ CNNを導入して安定化
pix2pix (2017) ─ ペア画像で条件付き変換
CycleGAN (2017) ─ ペアなしで画像変換(サイクル一貫性)
StackGAN (2017) ─ テキスト→画像を段階的に
StyleGAN (2019) ─ スタイル制御で超高品質顔画像
SRGAN (2017) ─ 超解像(低解像度→高解像度)
ESRGAN (2018) ─ SRGANの改良版

📊 全11モデル比較表

カテゴリモデル核心アイデア入力→出力
GAN系 GAN2014G vs D の敵対的学習ノイズ→画像
DCGAN2015GAN+CNNノイズ→画像
pix2pix2017ペアデータで条件付き変換画像A→画像B
CycleGAN2017サイクル一貫性(ペア不要)画像A⇌画像B
StackGAN2017段階的に解像度を上げるテキスト→画像
StyleGAN2019スタイル制御、Mapping Networkノイズ→高品質顔画像
SRGAN/ESRGAN2017/18超解像低解像度→高解像度
VAE VAE2013潜在空間を正規分布に強制ノイズ→画像
自己回帰 PixelCNN20161ピクセルずつ順次生成条件→画像
画風変換 Neural Style Transfer2015Gram行列でスタイル抽出写真+画風→合成
3大生成アプローチの比較(超重要):
GAN → 高品質だがモード崩壊のリスク。学習が不安定
VAE → 安定した学習、多様な生成が可能だが画像がぼやけがち
自己回帰(PixelCNN等) → 正確な確率分布を学習できるが生成が遅い