ILSVRCって何ですか?ディープラーニングの歴史でよく出てきますよね。
ImageNet(約1,400万枚・1,000カテゴリ)を使った画像認識の世界的コンペティション(2010〜2017年)だよ。「この写真に写っているもの、5回以内に当ててね」というクイズ大会で、世界中のAI研究者が競い合った。ディープラーニングブームの火付け役となった重要なイベントなんだ。
トロント大学(クリジェフスキー、ヒントンら)が開発したAlexNetが、トップ5エラー率を約10%も引き下げて圧勝(従来26%→16%)。第3次AIブームの火付け役となった。
| 項目 | 内容 |
|---|---|
| チーム | トロント大学(クリジェフスキー、ヒントンら) |
| モデル名 | AlexNet |
| 成果 | トップ5エラー率を約10%引き下げて圧勝(従来26%→16%) |
| 技術 | CNN + GPU活用 + ReLU + ドロップアウト |
| 意義 | 第3次AIブームの火付け役。DLの有効性を世界に示した |
これ以前は手作業で特徴量を設計する手法が主流だったけど、AlexNetが「CNNに任せれば人間の設計を超える」ことを証明したんだ。
top-5エラー率:モデルが出力する上位5つの予測候補の中に正解が含まれない割合。ILSVRCでは主要な評価指標として使われた。
top-1エラー率:モデルが最も確信度の高い1つの予測が正解でない割合。top-5よりも厳しい基準。
例:画像に「柴犬」が写っている場合
・モデルの予測が「1位:秋田犬、2位:柴犬、3位:コーギー、4位:ビーグル、5位:プードル」
→ top-1はエラー(1位が不正解)だが、top-5は正解(上位5つに「柴犬」が含まれる)
ILSVRCの1,000カテゴリには似た犬種が多数あり、top-1での完全一致は非常に難しいため、top-5エラー率が採用された。
| 年 | モデル | 特徴 |
|---|---|---|
| 2012 | AlexNet | CNN + GPU。DLブームの始まり |
| 2014 | GoogLeNet | Inceptionモジュール。層を深く&効率的に |
| 2014 | VGGNet | シンプルに3x3フィルタを積み重ねて深くした |
| 2015 | ResNet | 残差接続(スキップ接続)で152層を実現。人間のエラー率を超えた |
トップ5エラー率:約5.1%
トップ5エラー率:約3.6%
2011年 従来手法:約26% → 2012年 AlexNet:約16% → 2014年 GoogLeNet:約6.7% → 2014年 VGG:約7.3% → 2015年 ResNet:約3.6%(人間の限界5.1%を突破!)
ディープラーニングの勉強で使うデータセットにはどんなものがありますか?
代表的なものを4つ紹介するよ。難易度順に MNIST → Fashion-MNIST → CIFAR-10 → ImageNet となる。
英単語の意味の関係(上位語・下位語・同義語など)を体系化した言語データベース。画像データではない。ImageNetは、この「言葉の階層構造」に画像を紐づけたもの。
例:動物(上位語)→ 犬(下位語)→ 柴犬・プードル
| データセット | 内容 | 枚数 | サイズ | 色 | カテゴリ数 | 難易度 |
|---|---|---|---|---|---|---|
| MNIST | 手書き数字 | 7万 | 28x28 | 白黒 | 10 | 簡単 |
| Fashion-MNIST | 衣類 | 7万 | 28x28 | 白黒 | 10 | やや難 |
| CIFAR-10 | 実世界の物体 | 6万 | 32x32 | カラー | 10 | 中程度 |
| ImageNet | あらゆる物体 | 1,400万 | 様々 | カラー | 2万超 | 高い |
簡単 ──────────────────── 難しい
MNIST(入門) → Fashion-MNIST(入門+α) → CIFAR-10(中級) → ImageNet(本格)