モデル(アーキテクチャ / 具体的なシステム)のみを整理。手法・指標・分野名は含まない。
| モデル名 | 種別 | 正式名称(略語の場合) | 年 | 一言で言うと |
|---|---|---|---|---|
| LeNet | 名前 | — | 1998 | CNNの原点。手書き数字認識。LeCunが開発 |
| AlexNet | 名前 | — | 2012 | DLブームの火付け役。ReLU・GPU・Dropout導入。ILSVRC優勝 |
| VGGNet | 略語 | Visual Geometry Group Net | 2014 | 3×3フィルターで統一してシンプルに深く。VGG16/19 |
| GoogLeNet | 名前 | 別名: Inception | 2014 | Inceptionモジュールで複数フィルターを並列実行。ILSVRC優勝 |
| ResNet | 略語 | Residual Network | 2015 | スキップ結合で152層を実現。人間超えの精度。ILSVRC優勝 |
| WideResNet | 名前 | — | 2016 | ResNetを深さでなく幅(チャネル数)方向に広げた派生 |
| DenseNet | 名前 | — | 2017 | 全前層の出力を密(Dense)に結合。ResNetの発展形 |
| SENet | 略語 | Squeeze-and-Excitation Net | 2017 | チャネルごとの重要度を自動学習。ILSVRC最後の優勝 |
| EfficientNet | 名前 | — | 2019 | 深さ・幅・解像度をバランスよくスケーリング |
| ViT | 略語 | Vision Transformer | 2020 | 画像をパッチに分割してTransformerで分類。CNN不使用 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| MobileNet | 名前 | — | 2017 | Depthwise Separable Convolutionで軽量化。スマホやIoT向け |
| MnasNet | 略語 | Mobile Neural Architecture Search Net | 2019 | NASでモバイル向け最適構造を自動探索 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| R-CNN | 略語 | Region-based CNN | 2014 | 候補領域を約2000個抽出→各々CNNで分類。遅いが元祖 |
| Fast R-CNN | 略語 | Fast Region-based CNN | 2015 | 画像全体を1回だけCNNに通して高速化 |
| Faster R-CNN | 略語 | Faster Region-based CNN | 2015 | RPNで候補領域生成もCNN化。End-to-End学習 |
| YOLO | 略語 | You Only Look Once | 2016 | 1回見るだけで全物体を同時検出。リアルタイム処理可能 |
| SSD | 略語 | Single Shot MultiBox Detector | 2016 | 複数スケールで同時検出する1段階方式 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| FCN | 略語 | Fully Convolutional Network | 2015 | 全結合層を畳み込みに置換。セマンティックセグメンテーションの元祖 |
| SegNet | 名前 | — | 2015 | エンコーダ・デコーダ構造。プーリングのインデックスを保存して復元 |
| U-Net | 名前 | — | 2015 | U字型のエンコーダ・デコーダ+スキップ結合。医療画像で有名 |
| PSPNet | 略語 | Pyramid Scene Parsing Net | 2017 | 異なるスケールの文脈情報をピラミッド状に統合 |
| DeepLab | 名前 | — | 2015〜 | Dilated Convolution(穴あき畳み込み)で広い受容野を確保。Googleが開発 |
| Mask R-CNN | 名前 | — | 2017 | Faster R-CNN+マスク予測。インスタンスセグメンテーションの代表 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| OpenPose | 名前 | — | 2017 | 人の関節位置をリアルタイム検出。PAFs(部位親和性場)を内部で使用 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| GAN | 略語 | Generative Adversarial Network | 2014 | 生成器Gと判別器Dが敵対的に学習。画像生成の革命 |
| DCGAN | 略語 | Deep Convolutional GAN | 2015 | GANにCNNを組み込み安定した画像生成を実現 |
| pix2pix | 名前 | pixel to pixel | 2017 | ペア画像で条件付き画像変換。線画→写真など |
| CycleGAN | 名前 | — | 2017 | ペアデータなしで画像変換。A→B→Aのサイクル一貫性 |
| StackGAN | 名前 | — | 2017 | テキスト→画像を段階的(Stack)に生成。低解像度→高解像度 |
| StyleGAN | 名前 | — | 2019 | スタイルを制御して超高品質な顔画像を生成。NVIDIA開発 |
| PixelCNN | 名前 | — | 2016 | ピクセルを1つずつ自己回帰的に生成するCNN |
| VAE | 略語 | Variational Autoencoder | 2013 | 潜在空間を正規分布に強制して生成可能にしたAE |
| SRGAN | 略語 | Super-Resolution GAN | 2017 | 低解像度→高解像度の超解像 |
| ESRGAN | 略語 | Enhanced SRGAN | 2018 | SRGANの強化版。より自然な超解像 |
| Neural Style Transfer | 名前 | — | 2015 | 画風変換。CNNの中間特徴を使いコンテンツとスタイルを分離・合成 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| RNN | 略語 | Recurrent Neural Network | — | 再帰型NN。系列データの基本構造。前の出力を次の入力に戻す |
| LSTM | 略語 | Long Short-Term Memory | 1997 | 3つのゲートで長期依存を学習。RNNの勾配消失を解決 |
| GRU | 略語 | Gated Recurrent Unit | 2014 | LSTMの簡略版。ゲート2つで計算が軽い |
| CNN | 略語 | Convolutional Neural Network | — | 畳み込みNN。画像認識の王道だがNLPにも使われる |
| Transformer | 名前 | — | 2017 | Attentionだけで構築。RNN不要。全NLPモデルの基盤 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| Word2Vec | 名前 | Word to Vector | 2013 | 単語をベクトルに変換。CBOW / Skip-gram |
| fastText | 名前 | — | 2016 | サブワード単位で学習。未知語にも対応。Facebook |
| ELMo | 略語 | Embeddings from Language Models | 2018 | 文脈に応じてベクトルが変化する。双方向LSTM |
| BERT | 略語 | Bidirectional Encoder Representations from Transformers | 2018 | Transformerエンコーダのみ。双方向文脈理解。Google |
| GPT | 略語 | Generative Pre-trained Transformer | 2018〜 | Transformerデコーダのみ。文章生成。OpenAI |
| T5 | 略語 | Text-to-Text Transfer Transformer | 2019 | 全タスクを「テキスト→テキスト」に統一。Google |
| BART | 略語 | Bidirectional and Auto-Regressive Transformers | 2019 | ノイズ除去型事前学習。要約に強い。Facebook |
| Seq2Seq | 略語 | Sequence to Sequence | 2014 | RNNベースのエンコーダ・デコーダ。機械翻訳の基盤 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| DeepSpeech | 名前 | — | 2014 | RNN+CTCベースの音声認識。End-to-End。Baidu |
| Whisper | 名前 | — | 2022 | Transformerベース音声認識。多言語対応。OpenAI |
| WaveNet | 名前 | — | 2016 | 音声波形を直接生成するCNN。自然な音声合成。DeepMind |
| Tacotron | 名前 | — | 2017 | テキスト→音声のSeq2Seq。Google |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| DQN | 略語 | Deep Q-Network | 2013 | Q学習+CNN。Atariゲームで人間超え。DeepMind |
| Double DQN | 名前 | — | 2015 | Q値の過大評価を修正。選択と評価を別ネットワークで分担 |
| Dueling DQN | 名前 | — | 2016 | Q値を「状態価値」と「行動優位性」に分離して学習 |
| NoisyNet | 名前 | — | 2017 | ネットワークの重みにノイズを追加して探索を促進 |
| Rainbow DQN | 名前 | — | 2017 | DQN改良7つを全部統合した集大成 |
| A3C | 略語 | Asynchronous Advantage Actor-Critic | 2016 | 非同期で複数環境を並列学習。Actor-Criticベース |
| PPO | 略語 | Proximal Policy Optimization | 2017 | 安定した方策勾配法。RLHFでも使用。OpenAI |
| AlphaGo | 名前 | — | 2016 | CNN+モンテカルロ木探索。囲碁プロ棋士に勝利。DeepMind |
| AlphaGo Zero | 名前 | — | 2017 | 人間のデータなし、自己対戦のみで学習 |
| AlphaZero | 名前 | — | 2018 | 囲碁・チェス・将棋を同一アルゴリズムで汎用学習 |
| AlphaStar | 名前 | — | 2019 | StarCraft IIのプロゲーマーに勝利。DeepMind |
| OpenAI Five | 名前 | — | 2019 | Dota 2の5人チームAI。OpenAI |
| PONANZA | 名前 | — | 2017 | 日本の将棋AI。プロ棋士に勝利 |
| モデル名 | 種別 | 正式名称 | 年 | 一言で言うと |
|---|---|---|---|---|
| CLIP | 略語 | Contrastive Language-Image Pre-training | 2021 | 画像とテキストを同じ空間に埋め込み。OpenAI |
| DALL-E | 名前 | ダリ + WALL-E | 2021 | テキストから画像を生成。OpenAI |
| Stable Diffusion | 名前 | — | 2022 | オープンソースのテキスト→画像。潜在空間での拡散モデル |
| GPT-4V | 略語 | GPT-4 with Vision | 2023 | テキスト+画像を理解するマルチモーダルLLM |
| 領域 | タスク | モデル数 | うち略語 |
|---|---|---|---|
| 画像 | 分類 | 10 | 4(VGG, ResNet, SENet, ViT) |
| 軽量CNN | 2 | 1(MnasNet) | |
| 物体検出 | 5 | 5(全て略語) | |
| セグメンテーション | 6 | 2(FCN, PSPNet) | |
| 姿勢推定 | 1 | 0 | |
| 画像生成 | 11 | 4(GAN, DCGAN, VAE, SRGAN/ESRGAN) | |
| NLP | 基盤 | 5 | 4(RNN, LSTM, GRU, CNN) |
| 具体的モデル | 8 | 6(ELMo, BERT, GPT, T5, BART, Seq2Seq) | |
| 音声 | 認識・合成 | 4 | 0 |
| 強化学習 | — | 13 | 3(DQN, A3C, PPO) |
| マルチモーダル | — | 4 | 2(CLIP, GPT-4V) |
| 合計 | 69 | 31が略語 | |