G検定モデル解説 Page 3/5 ─ 画像生成

🎨 画像生成モデルの4大カテゴリ

GAN系

生成器 vs 判別器

GAN, DCGAN, pix2pix, CycleGAN, StackGAN, StyleGAN, SRGAN, ESRGAN

VAE系

潜在空間に圧縮→生成

VAE

自己回帰系

1ピクセルずつ順番に生成

PixelCNN

その他

特徴量の操作で画風変換

Neural Style Transfer

2014 GAN ─ 画像生成の革命

Generative Adversarial Network（敵対的生成ネットワーク）。Goodfellow（グッドフェロー）が提案。生成器（Generator）と判別器（Discriminator）を競わせて学習させるという画期的なアイデア。

GANの仕組み：偽札犯と警察の例え

🎭

Generator（生成器）

＝偽札犯

ランダムノイズ z から
偽の画像を生成

「本物そっくりの画像を作りたい」

生成画像

⇌

本物/偽物?

🔍

Discriminator（判別器）

＝警察

入力画像が
本物か偽物かを判定

「偽物を見破りたい」

互いに競い合う（敵対的学習）ことで、G は本物そっくりの画像を生成できるようになる

試験ポイント：「Generator（G）と Discriminator（D）の敵対的学習」「ノイズから画像を生成」「モード崩壊（mode collapse）が弱点」。GANの提案者はGoodfellow。

2015 DCGAN ─ GANにCNNを導入

Deep Convolutional GAN。元のGANの全結合層をCNN（畳み込み/逆畳み込み）に置き換え、安定した画像生成を実現。

DCGANの構造

ノイズ z
100次元

→

転置Conv
（アップサンプリング）

→

転置Conv

→

転置Conv

→

生成画像
64×64

DCGANの3つのルール

①
プーリング層を使わない
（ストライド畳み込みで代替）

②
Batch Normalization使用
（学習の安定化）

③
全結合層を使わない
（全て畳み込みで構成）

🔄 条件付き画像変換GAN

pix2pix (2017)

ペア画像で変換学習

線画

→

写真

入力Aと出力Bのペアデータが必要。
線画→写真、白黒→カラーなど。
条件付きGAN（cGAN）の一種。

✗ ペアデータの収集が大変

CycleGAN (2017)

ペアデータ不要！

馬

⇌

シマウマ

A→B→Aのサイクルで元に戻れることを条件に学習（サイクル一貫性損失）。
ペアでない画像の集合だけでOK。

✓ 馬⇌シマウマ、写真⇌モネ風

pix2pix vs CycleGAN：ペアデータ「あり」→ pix2pix、ペアデータ「なし」→ CycleGAN。この対比は頻出。

✨ 高品質画像生成GAN

StackGAN (2017)

テキスト→画像を段階的に生成

テキスト
"赤い鳥"

→

Stage 1
低解像度

→

Stage 2
高解像度

2段階（Stack＝積み重ね）で段階的に解像度を上げる。テキスト→画像の初期モデル。

StyleGAN (2019)

NVIDIA開発。スタイル制御で超高品質顔画像

ノイズ z

→

Mapping
Network

→

スタイル w
各層に注入

粗いスタイル（ポーズ、顔型）と細かいスタイル（色、質感）を独立に制御可能。
「この人は実在しない」で話題に。

2017-18 SRGAN / ESRGAN ─ 超解像

低解像度の画像を高解像度に変換するSuper-Resolution（超解像）タスク。

低解像度
ぼやけた画像

→

Generator
（ResBlock × N）

→

高解像度
鮮明な画像

SRGAN (2017)

Super-Resolution GAN。GANの敵対的学習で「人間が見て自然に見える」超解像を実現。知覚品質（見た目の自然さ）を重視。

ESRGAN (2018)

Enhanced SRGAN。SRGANの改良版。Residual-in-Residual Dense Block（RRDB）を使い、BNを除去。よりシャープで自然な結果。

2013 VAE ─ 潜在空間で生成を制御

Variational Autoencoder（変分オートエンコーダ）。通常のAutoencoder（AE）に確率的な仕組みを加えたもの。

VAEの構造

入力画像

→

Encoder
（圧縮）

→

潜在空間 z
μ, σ → サンプリング

→

Decoder
（復元）

→

再構成画像

AE vs VAE の違い

通常の AE

入力を圧縮→復元するだけ。
潜在空間がスカスカ＆不規則。

✗ 新しい画像を生成できない

VAE

潜在空間を正規分布に強制。
連続的で滑らかな空間になる。

✓ 潜在空間からサンプリングして新しい画像を生成可能

GAN vs VAE：
GAN → 画像の品質が高いが、多様性に欠けることがある（モード崩壊）
VAE → 多様な生成が可能だが、画像がぼやけがち
試験では「潜在空間」「正規分布に強制」「Reparameterization Trick」がポイント。

2016 PixelCNN ─ 1ピクセルずつ順番に生成

自己回帰モデル。画像の左上から1ピクセルずつ、これまで生成したピクセルを条件として次のピクセルを予測・生成。

■ 生成済み　 ■ 今生成中　 □ 未生成

P(x_i) = P(x_i | x₁, x₂, ..., x_i-1)

過去のピクセルに基づいて次のピクセルの確率分布を予測。マスク付き畳み込みで「未来」の情報を見ないようにする。

試験ポイント：「自己回帰（Autoregressive）モデル」「生成が遅い（1ピクセルずつ）」「正確な確率分布を学習できる」。GANやVAEと対比される。

2015 Neural Style Transfer ─ 画風変換

1枚の写真に、別の絵画のスタイル（画風）を適用する技術。CNNの中間層の特徴量を使って「コンテンツ」と「スタイル」を分離・再合成。

コンテンツ画像
（写真）

CNNの高層で抽出
→ 物体の構造

＋

スタイル画像
（ゴッホの絵など）

Gram行列で抽出
→ テクスチャ・色彩

＝

合成画像
（ゴッホ風の写真）

コンテンツ損失＋
スタイル損失を最小化

試験ポイント：「Gram行列（スタイル表現）」「コンテンツ損失＋スタイル損失」「CNNの中間特徴を活用」。GANとは異なるアプローチで画像変換を実現。

🌳 GAN派生モデルの系統

GAN (2014)

DCGAN (2015) ─ CNNを導入して安定化

pix2pix (2017) ─ ペア画像で条件付き変換

CycleGAN (2017) ─ ペアなしで画像変換（サイクル一貫性）

StackGAN (2017) ─ テキスト→画像を段階的に

StyleGAN (2019) ─ スタイル制御で超高品質顔画像

SRGAN (2017) ─ 超解像（低解像度→高解像度）

ESRGAN (2018) ─ SRGANの改良版

📊 全11モデル比較表

カテゴリ	モデル	年	核心アイデア	入力→出力
GAN系	GAN	2014	G vs D の敵対的学習	ノイズ→画像
	DCGAN	2015	GAN＋CNN	ノイズ→画像
	pix2pix	2017	ペアデータで条件付き変換	画像A→画像B
	CycleGAN	2017	サイクル一貫性（ペア不要）	画像A⇌画像B
	StackGAN	2017	段階的に解像度を上げる	テキスト→画像
	StyleGAN	2019	スタイル制御、Mapping Network	ノイズ→高品質顔画像
	SRGAN/ESRGAN	2017/18	超解像	低解像度→高解像度
VAE	VAE	2013	潜在空間を正規分布に強制	ノイズ→画像
自己回帰	PixelCNN	2016	1ピクセルずつ順次生成	条件→画像
画風変換	Neural Style Transfer	2015	Gram行列でスタイル抽出	写真＋画風→合成

3大生成アプローチの比較（超重要）：
GAN → 高品質だがモード崩壊のリスク。学習が不安定
VAE → 安定した学習、多様な生成が可能だが画像がぼやけがち
自己回帰（PixelCNN等） → 正確な確率分布を学習できるが生成が遅い