マルチモーダルとモデルの解釈性

マルチモーダルAI

マルチモーダルって何のこと？

モダリティとはデータの種類・形式のことです。テキスト、画像、音声、動画、センサーデータなど、それぞれが異なるモダリティです。マルチモーダルAIは、複数のモダリティを組み合わせて処理するAIのことを指します。

モダリティとは？

モダリティ（Modality）= データの種類・形式。テキスト・画像・音声・動画・点群・センサーデータなど。単一のモダリティのみを扱うAIをユニモーダル、複数を扱うAIをマルチモーダルと呼びます。人間は普段から視覚・聴覚・言語を統合して世界を理解しており、マルチモーダルAIはこれに近づくアプローチです。

マルチモーダルの代表的タスク

マルチモーダルAIって具体的にどんなことができるの？

代表的なタスクに画像キャプション生成（ニューラル画像脚注付け）、Visual Question Answering（VQA）、テキストから画像生成などがあります。

ニューラル画像脚注付け（Neural Image Captioning）

画像を入力して、その内容を説明するテキスト（キャプション）を自動生成するマルチモーダルタスク。CNNで画像の特徴ベクトルを抽出し、それをRNN/LSTMやTransformerのデコーダに渡して文を生成します。代表手法は「Show and Tell」（Google, 2015年）。Attention機構を追加した「Show, Attend and Tell」で、画像のどの部分を見て各単語を生成したかを可視化できるようになりました。

タスク	入力モダリティ	出力	代表モデル
画像キャプション生成	画像	テキスト	Show and Tell, BLIP
VQA（視覚質問応答）	画像＋テキスト	テキスト（回答）	ViLT, BLIP-2
テキスト→画像生成	テキスト	画像	DALL·E 2, Stable Diffusion
音声認識＋翻訳	音声	テキスト（他言語）	Whisper
マルチモーダル対話	画像＋テキスト	テキスト	GPT-4V, Gemini

モデルの解釈性とブラックボックス問題

ディープラーニングは「なぜその判断をしたか」がわからないって聞いたけど…

その通りです。DNNは高い精度を出せますが、内部の計算過程が複雑すぎて「なぜその予測になったのか」を人間が理解できないというブラックボックス問題があります。医療診断や自動運転など人命に関わる場面では、予測根拠の説明が不可欠です。これを解決する分野がXAI（説明可能AI / Explainable AI）です。

なぜ解釈性が重要か？

医療：「この患者は癌です」→ どの画像領域を根拠にした？

金融：「融資を却下」→ なぜ？（説明義務がある場合も）

自動運転：事故が起きたとき → 判断根拠の説明が不可欠

法制度：EUのGDPRは「自動意思決定に対する説明を受ける権利」を規定

XAI（説明可能AI）の代表手法

ブラックボックスを解釈する具体的な方法は？

代表的な手法としてLIME、SHAP、Grad-CAMの3つがあります。それぞれアプローチが異なります。

LIME（Local Interpretable Model-agnostic Explanations）

考え方：予測したいデータの近傍（少し変化させたデータ）で多数の予測結果を集め、その局所的な振る舞いをシンプルなモデル（線形モデル等）で近似して説明する。

Model-agnostic（モデル非依存）：DNNだけでなく、どんなモデルにも適用可能。モデルの内部構造にアクセスする必要がない（入力→出力の関係だけで分析）。

出力例：「この画像が猫と判断された理由は、耳とヒゲの部分が大きく寄与している」

SHAP（SHapley Additive exPlanations）

考え方：協力ゲーム理論のシャプレイ値（Shapley Value）を応用。各特徴量を「チームのプレイヤー」に見立て、予測結果への各特徴量の貢献度（報酬の公平な分配）を数学的に厳密に計算する。

シャプレイ値：あるプレイヤーが全ての可能なチームの組み合わせに参加したときの「限界貢献」の平均値。特徴量の追加・除去を全パターン試して貢献度を算出。

Model-agnostic：LIMEと同様にどんなモデルにも適用可能。数学的な一貫性・公平性が保証される点が強み。

出力例：各特徴量がどれだけ予測値を押し上げ/押し下げたかの棒グラフ

協力ゲーム理論とシャプレイ値

協力ゲーム理論は、プレイヤーが協力して得た報酬を「公平に分配する」ための数学理論です。SHAPではこれを応用し、各特徴量を「プレイヤー」、予測結果を「報酬」と見なして、各特徴量の公平な貢献度を算出します。

例：特徴量A・B・Cがあるとき → A単独、AB組、AC組、ABC全員…など全ての組み合わせでAの有無による予測値の変化を計算 → 平均が「Aのシャプレイ値（＝貢献度）」

Grad-CAM（Gradient-weighted Class Activation Mapping）

考え方：CNNの最終畳み込み層の各特徴マップに対する勾配（クラスに対する重要度）を重みとして、特徴マップの加重平均を取り、ヒートマップとして画像上に可視化する。

CNN専用：モデルの内部（勾配情報）を使うため、CNNにのみ適用可能（モデル依存）。

ヒートマップ：画像のどの領域がその分類判断に大きく寄与したかを、赤（高寄与）→青（低寄与）の色で可視化。

出力例：「猫」と判断した根拠として、猫の顔・耳の部分が赤く表示される

XAI手法の比較

手法	アプローチ	対象モデル	出力	理論基盤
LIME	近傍データで局所的に線形モデルで近似	モデル非依存（任意）	各特徴量の寄与度	局所的線形近似
SHAP	シャプレイ値で各特徴量の貢献度を算出	モデル非依存（任意）	各特徴量の寄与度	協力ゲーム理論
Grad-CAM	CNNの勾配で重要領域をヒートマップ表示	CNN専用（モデル依存）	ヒートマップ（画像上）	勾配による重み付け

モデル非依存 vs モデル依存

モデル非依存（Model-agnostic）

モデルの内部構造にアクセスせず、入力→出力の関係だけで分析。どんなモデルにも適用可能。

代表：LIME、SHAP

モデル依存（Model-specific）

モデルの内部構造（勾配・重み・中間表現）を利用して分析。特定のモデルにしか使えない。

代表：Grad-CAM（CNN専用）

G検定キーポイント

モダリティ = データの種類・形式。マルチモーダルAI = 複数モダリティを統合処理するAI
ニューラル画像脚注付け：CNNで画像特徴を抽出→RNN/Transformerでキャプション（テキスト）を生成
ブラックボックス問題：DNNは高精度だが「なぜその判断か」を人間が理解できない問題
XAI（説明可能AI）：モデルの判断根拠を人間に説明する技術の総称
LIME：近傍データで局所的に線形モデルで近似。モデル非依存
SHAP：協力ゲーム理論のシャプレイ値で各特徴量の貢献度を公平に算出。モデル非依存
Grad-CAM：CNNの勾配を使って重要領域をヒートマップで可視化。CNN専用（モデル依存）
LIME・SHAPはモデル非依存（任意のモデルに使える）、Grad-CAMはモデル依存（CNN専用）