オートエンコーダって何ですか?何のために使うんですか?
入力データを圧縮して復元するニューラルネットワークだよ。「入力=正解」として学習するので教師なし学習の一種なんだ。長い文章を3行に要約(エンコーダ)して、要約から元の文章を復元(デコーダ)するようなイメージだね。
入力 → エンコーダ(圧縮) → 潜在表現(ボトルネック) → デコーダ(復元) → 出力
| 構成要素 | 役割 |
|---|---|
| エンコーダ | 入力を少ない次元に圧縮する |
| 潜在表現(ボトルネック) | 圧縮されたデータの本質的な特徴 |
| デコーダ | 圧縮されたものから元のデータを復元する |
| 用途 | 説明 |
|---|---|
| 次元削減 | PCAのように特徴量を圧縮(非線形にも対応) |
| 特徴抽出 | 潜在表現がデータの本質的な特徴になる |
| 異常検知 | 正常データで学習→異常データは復元がうまくいかない→異常と判定 |
| ノイズ除去 | ノイズ入りデータから元のきれいなデータを復元 |
積層オートエンコーダって何ですか?普通のオートエンコーダと何が違うんですか?
昔はディープなネットワークをいきなり学習させると勾配消失で学習できなかったんだ。そこで「1層ずつバラバラに学習させてから、全体を仕上げる」手法が生まれた。これが積層オートエンコーダによる事前学習だよ。
【第1段階:事前学習(教師なし・1層ずつ)】
1. 1層目のオートエンコーダを学習 → 1層目の特徴を獲得
2. 1層目の出力を入力にして、2層目を学習
3. 同様に3層目、4層目...と積み上げる
【第2段階:ファインチューニング(教師あり・全体)】
4. 事前学習した層を全部つなげて、出力層を追加
5. ラベル付きデータで全体を通して微調整
日常で例えると、教科書で基礎知識をつける(事前学習=教師なし)→ その基礎を活かして過去問で仕上げる(ファインチューニング=教師あり)というイメージだね。
| 事前学習 | ファインチューニング | |
|---|---|---|
| 学習方法 | 教師なし(ラベル不要) | 教師あり(ラベル使用) |
| 範囲 | 1層ずつ | 全体を通して |
| 目的 | 重みの良い初期値を見つける | タスクに合わせて微調整する |
| 時代 | 状況 |
|---|---|
| 2006年頃 | ヒントンが事前学習を提案→深いネットワークが学習可能に。DL復活のきっかけ |
| 現在 | ReLU・バッチ正規化・残差接続の登場で事前学習なしでも学習できる |
ただし「事前学習→ファインチューニング」の考え方は、転移学習など現在のDLでも広く使われている。
ヒントンが2006年に提案した事前学習って、具体的にどういう仕組みだったんですか?
ヒントンが使ったのは制限付きボルツマンマシン(RBM)というモデルだよ。これを何層も積み重ねたものが深層信念ネットワーク(DBN)で、2006年のディープラーニング復活のきっかけになったんだ。
全ノードが相互接続
計算量が膨大で実用的でない
理論的なモデル
層間のみ接続(同層内は接続なし)
計算が現実的
事前学習のユニットとして実用化
RBMベース:RBMを積み上げてDBNを構成(ヒントン、2006年)
オートエンコーダベース:オートエンコーダを積み上げて積層オートエンコーダを構成
どちらも「1層ずつ教師なしで事前学習→全体を教師ありでファインチューニング」の流れは同じ。
ムーアの法則ってディープラーニングとどう関係があるんですか?
半導体チップに集積できるトランジスタの数が、約18〜24ヶ月(約2年)で2倍になるという経験則だよ。1965年にゴードン・ムーア(インテルの共同創業者)が提唱した。同じサイズの本棚に入る本の数が2年ごとに2倍になるイメージだね。
| 要素 | 内容 |
|---|---|
| 計算能力の向上 | ムーアの法則 + GPU/TPUの活用 |
| データ量の増大 | インターネット・IoTによるビッグデータ |
| アルゴリズムの進化 | ReLU、ドロップアウト、バッチ正規化など |
バーニーおじさんのルールって何ですか?面白い名前ですね。
ニューラルネットワークがうまく学習するために必要な学習データ数の目安を示した経験則だよ。
必要な学習データ数 ≧ パラメータ数 x 10
覚える項目が100個あるなら、1,000問くらいの練習問題を解かないと本当には身につかない。覚えることが多いのに練習問題が少ないと「丸暗記」(=過学習)になってしまう。
| ポイント | 内容 |
|---|---|
| ルールの意味 | 学習データ数はパラメータ数の約10倍必要 |
| 目的 | 過学習を防ぎ、汎化性能を確保する |
| 裏を返すと | データが少ないならモデルを小さく(パラメータを減らす)すべき |
| 注意点 | あくまで経験則(目安)であり、絶対的な法則ではない |