特徴表現学習

Representation Learning ― データの「良い表現」を自動で学習する

1特徴表現学習とは?

従来の機械学習では、人間がデータから「どの特徴を使うか」を設計していました(特徴量エンジニアリング)。特徴表現学習は、モデル自身がデータの中から有用な特徴(表現)を自動的に学習するアプローチです。

一言で言うと:「人間が特徴を作る」から「機械が特徴を見つける」への転換。これがディープラーニングの本質的な強みです。

2従来の方法 vs 特徴表現学習

「写真が犬か猫かを判定する」タスクで比較します。

従来:人間が特徴を設計する

🐕 生データ (画像ピクセル) 👨‍💻 人間が特徴を設計 • 耳の形は? → 尖り度 • 顔の丸さは? → 丸さ指数 • 色の分布は? → ヒストグラム • エッジの方向は? → HOG特徴量 ← 専門知識と試行錯誤が必要 手作り特徴量 [0.8, 0.3, 0.6, 0.2, 0.9, ...] SVM など 🐕 犬!

特徴表現学習:モデルが特徴を自動で学習する

🐕 生データ (画像ピクセル) 🧠 ディープニューラルネットワーク(例:CNN) 第1層 エッジ 色の変化 を検出 第2層 テクスチャ パターン を検出 第3層 耳の形 目の形 を検出 出力層 犬?猫? を判定 ← この部分が「特徴表現学習」= 特徴の自動抽出 → 🐕 犬!
核心的な違い:従来は「特徴を作る人」と「分類する機械」が別々でしたが、特徴表現学習では特徴の抽出から分類まですべてをモデルが一貫して学習します。人間が「耳の形を見ろ」と指示しなくても、モデルが自分で「耳の形が判別に有効だ」と発見します。

3層を重ねると表現が抽象化される

特徴表現学習の鍵は「深さ」にあります。層が深くなるにつれて、低レベル(単純)な特徴 → 高レベル(抽象的)な特徴へと段階的に積み上がります。

第1層(浅い層) 斜めエッジ 縦エッジ コーナー 明暗変化 単純・局所的な パターン 第2〜3層(中間層) 🔳 テクスチャ 丸い模様 🔺 尖った形 〰️ 曲線パターン 複数のエッジが 組み合わさった形 第4〜5層(深い層) 👁️ 目 👂 耳 👃 鼻 意味のある 部品を認識 出力 🐕 犬! 部品の組合せで 全体を判断 抽象度が高くなる →
ポイント:誰も「エッジを検出しろ」「目を探せ」とは指示していません。学習データ(犬・猫の画像と正解ラベル)を大量に与えるだけで、各層が自発的にこのような階層的な特徴表現を獲得します。これが特徴表現学習の本質です。

4分野別の特徴表現学習

🖼️
画像(CNN)
畳み込み層がエッジ→テクスチャ→部品→物体と段階的に特徴を抽出。

例:ResNet, VGG
📝
テキスト(Transformer)
単語を数百次元のベクトル(埋め込み表現)に変換。意味的に近い単語は近い位置に配置される。

例:Word2Vec, BERT
🎤
音声(RNN / Transformer)
音響信号から音素→単語→文の意味を階層的に学習。

例:Whisper, WaveNet

5テキストの特徴表現学習:Word2Vec

Word2Vecは、単語を数百次元のベクトル(数値の並び)に変換します。このベクトルが単語の「意味の表現」になります。人間が「王=男性+権力者」と定義しなくても、大量の文章から自動で学習します。

次元1(イメージ:性別的な軸) 次元2(イメージ:権力の軸) 女王 性別の差 同じ差! 権力の差 同じ差! 王 − 男 + 女 ≈ 女王
これが特徴表現学習の威力:「王 − 男 + 女 ≈ 女王」のような意味の演算が可能になります。誰も「王と男の関係」を教えていないのに、大量のテキストから自動的に意味的な構造を学習したのです。

6オートエンコーダーによる特徴表現学習

オートエンコーダーは、入力をそのまま復元するという一見無意味なタスクを通じて、データの本質的な特徴表現を獲得します。

🖼️ 入力 784次元 (28×28ピクセル) 高次元 冗長な情報 エンコーダ 圧縮 潜在 表現 32次元 ↑ ここが学習された 「特徴表現」 デコーダ 復元 🖼️ 出力(復元) 784次元 入力とほぼ同じ 元に戻せた = 良い表現 784次元 → 32次元に圧縮しても復元できる = 本質的な情報が32次元に凝縮されている
なぜ意味がある?:784次元を32次元に圧縮して元に戻せるなら、その32次元にはデータの本質的な情報が凝縮されています。この凝縮された表現(潜在表現)を他のタスク(分類など)に使うのが、オートエンコーダーによる特徴表現学習です。正解ラベルが不要なので教師なしの特徴表現学習です。

📋 全体のまとめ

従来の特徴量エンジニアリング 特徴表現学習
特徴を作るのは 人間(専門家) モデル自身
必要なもの ドメイン知識 + 試行錯誤 大量のデータ + 深いモデル
特徴の質 設計者の能力に依存 データが多いほど良い表現を獲得
汎用性 タスクごとに再設計が必要 転移学習で別タスクにも応用可能
代表的な手法 HOG, SIFT, Bag of Words CNN, Word2Vec, BERT, オートエンコーダー

G検定での出題ポイント

定義 モデルがデータから有用な特徴(表現)を自動的に学習すること
深い層の意義 浅い層は単純な特徴、深い層は抽象的な特徴を学ぶ。階層的な特徴表現がディープラーニングの強み
従来との違い 「人間が特徴を設計」→「モデルが特徴を発見」への転換
代表例 CNN(画像)、Word2Vec/BERT(テキスト)、オートエンコーダー(教師なし)