マルチモーダルとモデルの解釈性

マルチモーダルAI・ブラックボックス問題・XAI
マルチモーダルAI
マルチモーダルって何のこと?
モダリティとはデータの種類・形式のことです。テキスト、画像、音声、動画、センサーデータなど、それぞれが異なるモダリティです。マルチモーダルAIは、複数のモダリティを組み合わせて処理するAIのことを指します。
マルチモーダルAI の概念 テキスト 言語情報 画像 視覚情報 音声 聴覚情報 動画 時空間情報 センサー 数値・位置情報 マルチモーダルAI 複数のモダリティを統合して理解・生成 各モダリティ = データの種類・形式(テキスト、画像、音声、動画…)
モダリティとは?

モダリティ(Modality)= データの種類・形式。テキスト・画像・音声・動画・点群・センサーデータなど。単一のモダリティのみを扱うAIをユニモーダル、複数を扱うAIをマルチモーダルと呼びます。人間は普段から視覚・聴覚・言語を統合して世界を理解しており、マルチモーダルAIはこれに近づくアプローチです。

マルチモーダルの代表的タスク
マルチモーダルAIって具体的にどんなことができるの?
代表的なタスクに画像キャプション生成(ニューラル画像脚注付け)、Visual Question Answering(VQA)テキストから画像生成などがあります。
マルチモーダルの代表的タスク 画像キャプション生成 (ニューラル画像脚注付け) 🖼 CNN +RNN 「犬が公園で遊んでいる」 画像→テキスト CNNで画像特徴を抽出→ RNN/Transformerで文を生成 Show and Tell等 VQA(視覚質問応答) 🖼 + 「何匹いる?」 マルチモーダル 「3匹」 画像+テキスト質問→回答 画像理解と言語理解の統合 テキスト→画像生成 「夕焼けのビーチに猫」 拡散モデル等 🎨 テキスト→画像 DALL·E 2, Stable Diffusion等
ニューラル画像脚注付け(Neural Image Captioning)

画像を入力して、その内容を説明するテキスト(キャプション)を自動生成するマルチモーダルタスク。CNNで画像の特徴ベクトルを抽出し、それをRNN/LSTMTransformerのデコーダに渡して文を生成します。代表手法は「Show and Tell」(Google, 2015年)。Attention機構を追加した「Show, Attend and Tell」で、画像のどの部分を見て各単語を生成したかを可視化できるようになりました。

タスク入力モダリティ出力代表モデル
画像キャプション生成画像テキストShow and Tell, BLIP
VQA(視覚質問応答)画像+テキストテキスト(回答)ViLT, BLIP-2
テキスト→画像生成テキスト画像DALL·E 2, Stable Diffusion
音声認識+翻訳音声テキスト(他言語)Whisper
マルチモーダル対話画像+テキストテキストGPT-4V, Gemini
モデルの解釈性とブラックボックス問題
ディープラーニングは「なぜその判断をしたか」がわからないって聞いたけど…
その通りです。DNNは高い精度を出せますが、内部の計算過程が複雑すぎて「なぜその予測になったのか」を人間が理解できないというブラックボックス問題があります。医療診断や自動運転など人命に関わる場面では、予測根拠の説明が不可欠です。これを解決する分野がXAI(説明可能AI / Explainable AI)です。
ブラックボックス問題 入力 画像・テキスト等 DNN (ブラックボックス) 内部: 数百万〜数十億パラメータ なぜその判断か?→ 不明 出力 「猫です」(98%) なぜ猫と判断した? → 説明できない XAI 説明可能AI 判断根拠を 人間に提示
なぜ解釈性が重要か?

医療:「この患者は癌です」→ どの画像領域を根拠にした?

金融:「融資を却下」→ なぜ?(説明義務がある場合も)

自動運転:事故が起きたとき → 判断根拠の説明が不可欠

法制度:EUのGDPRは「自動意思決定に対する説明を受ける権利」を規定

XAI(説明可能AI)の代表手法
ブラックボックスを解釈する具体的な方法は?
代表的な手法としてLIMESHAPGrad-CAMの3つがあります。それぞれアプローチが異なります。
LIME(Local Interpretable Model-agnostic Explanations)

考え方:予測したいデータの近傍(少し変化させたデータ)で多数の予測結果を集め、その局所的な振る舞いをシンプルなモデル(線形モデル等)で近似して説明する。

Model-agnostic(モデル非依存):DNNだけでなく、どんなモデルにも適用可能。モデルの内部構造にアクセスする必要がない(入力→出力の関係だけで分析)。

出力例:「この画像が猫と判断された理由は、耳とヒゲの部分が大きく寄与している」

LIMEの仕組み 説明したい データ点 ① 近傍データを生成し予測 ② 局所的に線形モデルで近似 説明結果 特徴A: +0.45(猫に寄与) 特徴B: +0.32(猫に寄与) 特徴C: −0.12(犬に寄与) ③ 各特徴の寄与度がわかる
SHAP(SHapley Additive exPlanations)

考え方協力ゲーム理論のシャプレイ値(Shapley Value)を応用。各特徴量を「チームのプレイヤー」に見立て、予測結果への各特徴量の貢献度(報酬の公平な分配)を数学的に厳密に計算する。

シャプレイ値:あるプレイヤーが全ての可能なチームの組み合わせに参加したときの「限界貢献」の平均値。特徴量の追加・除去を全パターン試して貢献度を算出。

Model-agnostic:LIMEと同様にどんなモデルにも適用可能。数学的な一貫性・公平性が保証される点が強み。

出力例:各特徴量がどれだけ予測値を押し上げ/押し下げたかの棒グラフ

協力ゲーム理論とシャプレイ値

協力ゲーム理論は、プレイヤーが協力して得た報酬を「公平に分配する」ための数学理論です。SHAPではこれを応用し、各特徴量を「プレイヤー」、予測結果を「報酬」と見なして、各特徴量の公平な貢献度を算出します。

例:特徴量A・B・Cがあるとき → A単独、AB組、AC組、ABC全員…など全ての組み合わせでAの有無による予測値の変化を計算 → 平均が「Aのシャプレイ値(=貢献度)」

Grad-CAM(Gradient-weighted Class Activation Mapping)

考え方:CNNの最終畳み込み層の各特徴マップに対する勾配(クラスに対する重要度)を重みとして、特徴マップの加重平均を取り、ヒートマップとして画像上に可視化する。

CNN専用:モデルの内部(勾配情報)を使うため、CNNにのみ適用可能(モデル依存)。

ヒートマップ:画像のどの領域がその分類判断に大きく寄与したかを、赤(高寄与)→青(低寄与)の色で可視化。

出力例:「猫」と判断した根拠として、猫の顔・耳の部分が赤く表示される

Grad-CAMの仕組み 入力画像 (猫の写真) CNN 最終畳み込み層 の特徴マップ 勾配を計算 「猫」クラスの スコアに対する 各特徴マップの重み 加重平均 勾配×特徴マップ の加重和→ReLU ヒートマップ 赤=高寄与 青=低寄与 CNNの勾配情報を使って「画像のどこを見て判断したか」をヒートマップで可視化 → 猫の顔・耳の部分が赤く表示 = CNNがその部分を見て「猫」と判断した証拠
XAI手法の比較
手法アプローチ対象モデル出力理論基盤
LIME 近傍データで局所的に線形モデルで近似 モデル非依存(任意) 各特徴量の寄与度 局所的線形近似
SHAP シャプレイ値で各特徴量の貢献度を算出 モデル非依存(任意) 各特徴量の寄与度 協力ゲーム理論
Grad-CAM CNNの勾配で重要領域をヒートマップ表示 CNN専用(モデル依存) ヒートマップ(画像上) 勾配による重み付け
モデル非依存 vs モデル依存
モデル非依存(Model-agnostic)

モデルの内部構造にアクセスせず、入力→出力の関係だけで分析。どんなモデルにも適用可能。

代表:LIMESHAP

モデル依存(Model-specific)

モデルの内部構造(勾配・重み・中間表現)を利用して分析。特定のモデルにしか使えない。

代表:Grad-CAM(CNN専用)

G検定キーポイント