ILSVRC と代表的データセット — G検定勉強ノート

🔰 初心者

ILSVRCって何ですか？ディープラーニングの歴史でよく出てきますよね。

🎓 上級者

ImageNet（約1,400万枚・1,000カテゴリ）を使った画像認識の世界的コンペティション（2010〜2017年）だよ。「この写真に写っているもの、5回以内に当ててね」というクイズ大会で、世界中のAI研究者が競い合った。ディープラーニングブームの火付け役となった重要なイベントなんだ。

🔥 2012年：AlexNet（最重要）

AlexNet の革命

トロント大学（クリジェフスキー、ヒントンら）が開発したAlexNetが、トップ5エラー率を約10%も引き下げて圧勝（従来26%→16%）。第3次AIブームの火付け役となった。

項目	内容
チーム	トロント大学（クリジェフスキー、ヒントンら）
モデル名	AlexNet
成果	トップ5エラー率を約10%引き下げて圧勝（従来26%→16%）
技術	CNN + GPU活用 + ReLU + ドロップアウト
意義	第3次AIブームの火付け役。DLの有効性を世界に示した

🎓 上級者

これ以前は手作業で特徴量を設計する手法が主流だったけど、AlexNetが「CNNに任せれば人間の設計を超える」ことを証明したんだ。

top-5エラー率とtop-1エラー率

top-5エラー率：モデルが出力する上位5つの予測候補の中に正解が含まれない割合。ILSVRCでは主要な評価指標として使われた。

top-1エラー率：モデルが最も確信度の高い1つの予測が正解でない割合。top-5よりも厳しい基準。

例：画像に「柴犬」が写っている場合
・モデルの予測が「1位:秋田犬、2位:柴犬、3位:コーギー、4位:ビーグル、5位:プードル」
→ top-1はエラー（1位が不正解）だが、top-5は正解（上位5つに「柴犬」が含まれる）

ILSVRCの1,000カテゴリには似た犬種が多数あり、top-1での完全一致は非常に難しいため、top-5エラー率が採用された。

🏆 ILSVRCの主要モデル

年	モデル	特徴
2012	AlexNet	CNN + GPU。DLブームの始まり
2014	GoogLeNet	Inceptionモジュール。層を深く＆効率的に
2014	VGGNet	シンプルに3x3フィルタを積み重ねて深くした
2015	ResNet	残差接続（スキップ接続）で152層を実現。人間のエラー率を超えた

🚀 人間超えの瞬間（2015年・ResNet）

人間のエラー率

トップ5エラー率：約5.1%

ResNetのエラー率

トップ5エラー率：約3.6%

エラー率の推移

2011年従来手法：約26% → 2012年 AlexNet：約16% → 2014年 GoogLeNet：約6.7% → 2014年 VGG：約7.3% → 2015年 ResNet：約3.6%（人間の限界5.1%を突破！）

図1: ILSVRCトップ5エラー率の推移 ─ 2015年にResNetが人間のエラー率を下回った

🎯 G検定ポイント

ILSVRCは画像認識コンペ。評価指標はtop-5エラー率（上位5予測に正解が含まれない割合）
2012年のAlexNet（CNN+GPU+ReLU+ドロップアウト）が圧勝し第3次AIブームのきっかけに
2015年のResNetは残差接続で152層を実現し、人間のエラー率を超えた

📊 代表的なデータセット

🔰 初心者

ディープラーニングの勉強で使うデータセットにはどんなものがありますか？

🎓 上級者

代表的なものを4つ紹介するよ。難易度順に MNIST → Fashion-MNIST → CIFAR-10 → ImageNet となる。

ImageNet

約1,400万枚、2万カテゴリ以上の大規模画像データセット。

WordNetの階層構造に基づいてカテゴリが整理されている。ILSVRCではこの中から1,000カテゴリを使って競い合った。世界最大の「写真図鑑」のようなもの。

WordNetとは

英単語の意味の関係（上位語・下位語・同義語など）を体系化した言語データベース。画像データではない。ImageNetは、この「言葉の階層構造」に画像を紐づけたもの。

例：動物（上位語）→ 犬（下位語）→ 柴犬・プードル

MNIST

手書き数字（0〜9）の画像データセット。DLの「Hello World」的存在。

学習用6万枚 + テスト用1万枚 = 計7万枚。28x28ピクセル、白黒、10クラス。初学者がまず試す定番。

Fashion-MNIST

衣類（Tシャツ、ズボン、靴、バッグなど）の画像データセット。

MNISTが簡単すぎるため代替として作られた。データ数・画像サイズ・カテゴリ数はMNISTと完全に同じ形式でやや難しい。

CIFAR-10

実世界の物体（飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラック）のカラー画像。

学習用5万枚 + テスト用1万枚 = 計6万枚。32x32ピクセル、カラー（RGB）、10クラス。CIFAR-100（100カテゴリ版）もある。

📋 データセット比較表

データセット	内容	枚数	サイズ	色	カテゴリ数	難易度
MNIST	手書き数字	7万	28x28	白黒	10	簡単
Fashion-MNIST	衣類	7万	28x28	白黒	10	やや難
CIFAR-10	実世界の物体	6万	32x32	カラー	10	中程度
ImageNet	あらゆる物体	1,400万	様々	カラー	2万超	高い

図2: データセットのスケール比較 ─ ImageNetは他のデータセットと桁違いの規模

💡 難易度・規模のイメージ

簡単 ──────────────────── 難しい
MNIST（入門） → Fashion-MNIST（入門+α） → CIFAR-10（中級） → ImageNet（本格）

🎯 G検定ポイント

ImageNetはWordNetの階層構造に基づく大規模画像データセット
MNISTは手書き数字でDLの入門定番
Fashion-MNISTはMNISTと同じ形式の衣類データで代替として使われる
CIFAR-10は小さなカラー画像10カテゴリ（100カテゴリ版のCIFAR-100もある）