モダリティ(Modality)= データの種類・形式。テキスト・画像・音声・動画・点群・センサーデータなど。単一のモダリティのみを扱うAIをユニモーダル、複数を扱うAIをマルチモーダルと呼びます。人間は普段から視覚・聴覚・言語を統合して世界を理解しており、マルチモーダルAIはこれに近づくアプローチです。
画像を入力して、その内容を説明するテキスト(キャプション)を自動生成するマルチモーダルタスク。CNNで画像の特徴ベクトルを抽出し、それをRNN/LSTMやTransformerのデコーダに渡して文を生成します。代表手法は「Show and Tell」(Google, 2015年)。Attention機構を追加した「Show, Attend and Tell」で、画像のどの部分を見て各単語を生成したかを可視化できるようになりました。
| タスク | 入力モダリティ | 出力 | 代表モデル |
|---|---|---|---|
| 画像キャプション生成 | 画像 | テキスト | Show and Tell, BLIP |
| VQA(視覚質問応答) | 画像+テキスト | テキスト(回答) | ViLT, BLIP-2 |
| テキスト→画像生成 | テキスト | 画像 | DALL·E 2, Stable Diffusion |
| 音声認識+翻訳 | 音声 | テキスト(他言語) | Whisper |
| マルチモーダル対話 | 画像+テキスト | テキスト | GPT-4V, Gemini |
医療:「この患者は癌です」→ どの画像領域を根拠にした?
金融:「融資を却下」→ なぜ?(説明義務がある場合も)
自動運転:事故が起きたとき → 判断根拠の説明が不可欠
法制度:EUのGDPRは「自動意思決定に対する説明を受ける権利」を規定
考え方:予測したいデータの近傍(少し変化させたデータ)で多数の予測結果を集め、その局所的な振る舞いをシンプルなモデル(線形モデル等)で近似して説明する。
Model-agnostic(モデル非依存):DNNだけでなく、どんなモデルにも適用可能。モデルの内部構造にアクセスする必要がない(入力→出力の関係だけで分析)。
出力例:「この画像が猫と判断された理由は、耳とヒゲの部分が大きく寄与している」
考え方:協力ゲーム理論のシャプレイ値(Shapley Value)を応用。各特徴量を「チームのプレイヤー」に見立て、予測結果への各特徴量の貢献度(報酬の公平な分配)を数学的に厳密に計算する。
シャプレイ値:あるプレイヤーが全ての可能なチームの組み合わせに参加したときの「限界貢献」の平均値。特徴量の追加・除去を全パターン試して貢献度を算出。
Model-agnostic:LIMEと同様にどんなモデルにも適用可能。数学的な一貫性・公平性が保証される点が強み。
出力例:各特徴量がどれだけ予測値を押し上げ/押し下げたかの棒グラフ
協力ゲーム理論は、プレイヤーが協力して得た報酬を「公平に分配する」ための数学理論です。SHAPではこれを応用し、各特徴量を「プレイヤー」、予測結果を「報酬」と見なして、各特徴量の公平な貢献度を算出します。
例:特徴量A・B・Cがあるとき → A単独、AB組、AC組、ABC全員…など全ての組み合わせでAの有無による予測値の変化を計算 → 平均が「Aのシャプレイ値(=貢献度)」
考え方:CNNの最終畳み込み層の各特徴マップに対する勾配(クラスに対する重要度)を重みとして、特徴マップの加重平均を取り、ヒートマップとして画像上に可視化する。
CNN専用:モデルの内部(勾配情報)を使うため、CNNにのみ適用可能(モデル依存)。
ヒートマップ:画像のどの領域がその分類判断に大きく寄与したかを、赤(高寄与)→青(低寄与)の色で可視化。
出力例:「猫」と判断した根拠として、猫の顔・耳の部分が赤く表示される
| 手法 | アプローチ | 対象モデル | 出力 | 理論基盤 |
|---|---|---|---|---|
| LIME | 近傍データで局所的に線形モデルで近似 | モデル非依存(任意) | 各特徴量の寄与度 | 局所的線形近似 |
| SHAP | シャプレイ値で各特徴量の貢献度を算出 | モデル非依存(任意) | 各特徴量の寄与度 | 協力ゲーム理論 |
| Grad-CAM | CNNの勾配で重要領域をヒートマップ表示 | CNN専用(モデル依存) | ヒートマップ(画像上) | 勾配による重み付け |
モデルの内部構造にアクセスせず、入力→出力の関係だけで分析。どんなモデルにも適用可能。
代表:LIME、SHAP
モデルの内部構造(勾配・重み・中間表現)を利用して分析。特定のモデルにしか使えない。
代表:Grad-CAM(CNN専用)