ILSVRC と代表的データセット

ImageNet・MNIST・CIFAR-10・画像認識コンペの歴史
🔰 初心者

ILSVRCって何ですか?ディープラーニングの歴史でよく出てきますよね。

🎓 上級者

ImageNet(約1,400万枚・1,000カテゴリ)を使った画像認識の世界的コンペティション(2010〜2017年)だよ。「この写真に写っているもの、5回以内に当ててね」というクイズ大会で、世界中のAI研究者が競い合った。ディープラーニングブームの火付け役となった重要なイベントなんだ。

🔥 2012年:AlexNet(最重要)
AlexNet の革命

トロント大学(クリジェフスキー、ヒントンら)が開発したAlexNetが、トップ5エラー率を約10%も引き下げて圧勝(従来26%→16%)。第3次AIブームの火付け役となった。

項目内容
チームトロント大学(クリジェフスキー、ヒントンら)
モデル名AlexNet
成果トップ5エラー率を約10%引き下げて圧勝(従来26%→16%)
技術CNN + GPU活用 + ReLU + ドロップアウト
意義第3次AIブームの火付け役。DLの有効性を世界に示した
🎓 上級者

これ以前は手作業で特徴量を設計する手法が主流だったけど、AlexNetが「CNNに任せれば人間の設計を超える」ことを証明したんだ。

top-5エラー率とtop-1エラー率

top-5エラー率:モデルが出力する上位5つの予測候補の中に正解が含まれない割合。ILSVRCでは主要な評価指標として使われた。

top-1エラー率:モデルが最も確信度の高い1つの予測が正解でない割合。top-5よりも厳しい基準。

例:画像に「柴犬」が写っている場合
・モデルの予測が「1位:秋田犬、2位:柴犬、3位:コーギー、4位:ビーグル、5位:プードル」
top-1はエラー(1位が不正解)だが、top-5は正解(上位5つに「柴犬」が含まれる)

ILSVRCの1,000カテゴリには似た犬種が多数あり、top-1での完全一致は非常に難しいため、top-5エラー率が採用された。

🏆 ILSVRCの主要モデル
モデル特徴
2012AlexNetCNN + GPU。DLブームの始まり
2014GoogLeNetInceptionモジュール。層を深く&効率的に
2014VGGNetシンプルに3x3フィルタを積み重ねて深くした
2015ResNet残差接続(スキップ接続)で152層を実現。人間のエラー率を超えた
🚀 人間超えの瞬間(2015年・ResNet)

人間のエラー率

トップ5エラー率:約5.1%

ResNetのエラー率

トップ5エラー率:約3.6%

エラー率の推移

2011年 従来手法:約26% → 2012年 AlexNet:約16% → 2014年 GoogLeNet:約6.7% → 2014年 VGG:約7.3% → 2015年 ResNet:約3.6%(人間の限界5.1%を突破!)

ILSVRCトップ5エラー率の推移 0% 5% 10% 15% 20% 25% 30% 2010 2011 2012 2013 2014 2015 人間のエラー率 (約5%) 人間超え! 25.8% (従来手法) AlexNet 16.4% 11.7% (ZFNet) 6.7% (GoogLeNet) ResNet 3.57% トップ5エラー率 開催年
図1: ILSVRCトップ5エラー率の推移 ─ 2015年にResNetが人間のエラー率を下回った

🎯 G検定ポイント

📊 代表的なデータセット
🔰 初心者

ディープラーニングの勉強で使うデータセットにはどんなものがありますか?

🎓 上級者

代表的なものを4つ紹介するよ。難易度順に MNIST → Fashion-MNIST → CIFAR-10 → ImageNet となる。

ImageNet

1,400万枚2万カテゴリ以上の大規模画像データセット。
WordNetの階層構造に基づいてカテゴリが整理されている。ILSVRCではこの中から1,000カテゴリを使って競い合った。世界最大の「写真図鑑」のようなもの。
WordNetとは

英単語の意味の関係(上位語・下位語・同義語など)を体系化した言語データベース。画像データではない。ImageNetは、この「言葉の階層構造」に画像を紐づけたもの。

例:動物(上位語)→ 犬(下位語)→ 柴犬・プードル

MNIST

手書き数字(0〜9)の画像データセット。DLの「Hello World」的存在。
学習用6万枚 + テスト用1万枚 = 計7万枚。28x28ピクセル、白黒、10クラス。初学者がまず試す定番。

Fashion-MNIST

衣類(Tシャツ、ズボン、靴、バッグなど)の画像データセット。
MNISTが簡単すぎるため代替として作られた。データ数・画像サイズ・カテゴリ数はMNISTと完全に同じ形式でやや難しい。

CIFAR-10

実世界の物体(飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラック)のカラー画像。
学習用5万枚 + テスト用1万枚 = 計6万枚。32x32ピクセル、カラー(RGB)、10クラス。CIFAR-100(100カテゴリ版)もある。
📋 データセット比較表
データセット内容枚数サイズカテゴリ数難易度
MNIST手書き数字7万28x28白黒10簡単
Fashion-MNIST衣類7万28x28白黒10やや難
CIFAR-10実世界の物体6万32x32カラー10中程度
ImageNetあらゆる物体1,400万様々カラー2万超高い
データセットのスケール比較 ボックスの大きさがデータ規模の違いをイメージ MNIST 28x28 グレー 7万枚 10クラス(数字) 5 Fashion- MNIST 28x28 グレー 7万枚 10クラス(衣類) 👕 CIFAR-10 32x32 カラー 6万枚 10クラス (飛行機,車,鳥...) RGB ImageNet 様々なサイズ カラー 1,400万枚 2万クラス以上 (あらゆる物体) MNISTの約200倍の枚数 カテゴリ数は2,000倍以上 入門 中級 本格・研究用
図2: データセットのスケール比較 ─ ImageNetは他のデータセットと桁違いの規模
💡 難易度・規模のイメージ

簡単 ──────────────────── 難しい
MNIST(入門) → Fashion-MNIST(入門+α) → CIFAR-10(中級) → ImageNet(本格)

🎯 G検定ポイント