大規模言語モデル — G検定勉強ノート

🔰 初心者

Transformerが登場した後、自然言語処理はどう変わったんですか？

🎓 上級者

Transformerをベースに「大量のテキストで事前学習してから、個別タスクにファインチューニングする」というパラダイムが確立されたんだ。その代表がBERTとGPT。これらは基盤モデル（Foundation Model）と呼ばれ、現在のAIの中核になっているよ。

🎓 事前学習とファインチューニング

2段階の学習パラダイム

① 事前学習（Pre-training）
大量のラベルなしテキスト（Wikipedia、書籍など）で、言語の一般的な知識を学習する。教師なし（自己教師あり）学習。

② ファインチューニング（Fine-tuning）
事前学習済みモデルを、特定タスク（感情分析、質問応答など）のラベル付きデータで微調整する。少量のデータでも高精度が得られる。

基盤モデル（Foundation Model）

大量のデータで事前学習され、様々なタスクに転用できる大規模モデルの総称

特徴：BERT、GPTなどの大規模言語モデルを指す。スタンフォード大学が2021年に命名。

意義：従来はタスクごとに個別モデルを一から学習していたが、基盤モデルは1つの事前学習で多数のタスクに対応可能。

注意点：学習データのバイアスがすべてのタスクに波及するリスクがある。

スケーリング則（Scaling Laws）

大規模言語モデルの性能は、以下の3つの要素を増やすとべき乗則（Power Law）に従って予測可能に向上するという法則。

① モデルのパラメータ数（モデルサイズ）
② 学習データ量（トークン数）
③ 計算量（GPU時間）

OpenAIの研究（Kaplan et al., 2020年）で発見。「大きくすればするほど賢くなる」ことを示し、GPT-3やGPT-4の開発を後押しした。

🏗️ Transformerの3つの使い方

🔰 初心者

BERTとGPTはどちらもTransformerベースなのに、なぜ別々のモデルがあるんですか？

🎓 上級者

Transformerのエンコーダーとデコーダーのどちらを使うかで、得意なタスクが変わるんだ。BERTはエンコーダーのみ、GPTはデコーダーのみを使っているよ。

📘 BERT

🔰 初心者

BERTって具体的にどうやって事前学習しているんですか？

🎓 上級者

BERTは2つの事前学習タスクを使っているよ。MLM（Masked Language Model）とNSP（Next Sentence Prediction）だ。この2つで文の「理解」能力を獲得するんだ。

BERT（Bidirectional Encoder Representations from Transformers / Google, 2018年）

Transformerのエンコーダーを使い、双方向の文脈理解を実現した事前学習モデル

アーキテクチャ：Transformerのエンコーダーのみを使用（Encoder型）

事前学習タスク：

MLM（Masked Language Model）：入力の約15%をランダムに[MASK]で隠し、元の単語を予測。前後両方向の文脈を使うため「双方向（Bidirectional）」
NSP（Next Sentence Prediction）：2つの文が連続かどうかを予測。文間の関係性を学習

GPTとの違い：GPTは左→右の一方向だが、BERTは双方向。文の「理解」タスク（分類・質問応答・NER等）で圧倒的な性能。

弱点：[MASK]は事前学習時のみ存在し、実際のタスクには出現しない（学習と推論のギャップ）。文章の生成は苦手。

🔬 BERTの派生モデル

🔰 初心者

BERTは優れているのに、なぜ派生モデルがたくさんあるんですか？

🎓 上級者

BERTは巨大でメモリと計算コストが高いという課題があるんだ。ALBERTは「パラメータ削減で軽量化」、DistilBERTは「蒸留で小型化」という方向で改善しているよ。

ALBERT

A Lite BERT — パラメータ効率の改善

埋め込みの分解：大きな埋め込み行列を2つの小行列に分解
層間パラメータ共有：全Transformer層で同じ重みを使い回す
パラメータ数を大幅削減しつつ性能を維持
NSPの代わりにSOP（Sentence Order Prediction）を使用

DistilBERT

BERTを蒸留で小型化

BERTを教師モデルとして知識蒸留
層数を12→6層に削減
BERTの性能の97%を保持しつつ60%のサイズに
推論速度が60%高速化

MT-DNN（Multi-Task Deep Neural Network / Microsoft, 2019年）

BERTの事前学習＋複数タスクを同時に学習するマルチタスク学習モデル

仕組み：BERTで事前学習した後、複数のNLPタスクを同時にファインチューニングする。タスク間で共有される知識を活用し、各タスクの性能が向上する。

マルチタスク学習の利点：

タスク間で共通の言語知識を共有 → 汎化性能が向上
1つのモデルで複数タスクに対応できる
GLUEベンチマークで当時のBERTを上回る性能

📗 GPT

🔰 初心者

GPTはBERTとどう違うんですか？同じTransformerベースですよね？

🎓 上級者

最大の違いはアーキテクチャと学習方法だよ。BERTはエンコーダー型で「穴埋め」だけど、GPTはデコーダー型で「次の単語を予測」する。この違いが得意分野の違いを生んでいるんだ。

GPTの学習の仕組み：自己回帰型言語モデル

GPTの事前学習は次の単語予測の繰り返し：

「猫」→ 次は「が」と予測
「猫が」→ 次は「魚」と予測
「猫が魚」→ 次は「を」と予測
「猫が魚を」→ 次は「食べた」と予測

この単純なタスクを大量のテキストで行うことで、文法・知識・推論能力を獲得する。
左→右の一方向（Masked Self-Attentionを使用）のため、文章の生成に自然に適している。

GPTによる文章生成の仕組み

GPTの文章生成は「次の1トークンを予測 → 出力に追加 → また次を予測」を繰り返す自己回帰（Autoregressive）方式：

ユーザー入力：「明日の天気は」
→ 「晴れ」を生成（確率が最も高い次の単語）
→ 「晴れで」を生成
→ 「晴れでしょ」を生成
→ 「晴れでしょう」を生成

生成の度に文脈全体を参照するため、長い文でも整合性のある文章が生成できる。

GPT（Generative Pre-trained Transformer / OpenAI, 2018年〜）

Transformerのデコーダーを使い、次の単語を予測する自己回帰型の大規模言語モデル

アーキテクチャ：Transformerのデコーダーのみを使用（Decoder型）

事前学習：大量のテキストで「次の単語を予測」する自己回帰型言語モデリング

進化：

GPT-1（2018年）：事前学習＋ファインチューニングの有効性を示した
GPT-2（2019年）：FTなしでも高品質な文章を生成。15億パラメータ
GPT-3（2020年）：1750億パラメータ。プロンプト（指示文）を与えるだけでFTなしにタスクを実行（Few-shot / Zero-shot学習）

ChatGPT（OpenAI, 2022年）

GPTに人間のフィードバックによる強化学習（RLHF）を適用し、対話に最適化したモデル

ベースモデル：GPT-3.5 / GPT-4

RLHF（Reinforcement Learning from Human Feedback）：

① GPTの出力を人間が評価（良い/悪いをランク付け）
② 人間の好みを学習する報酬モデルを訓練
③ 報酬モデルを使って強化学習（PPO）でGPTを微調整

結果：有用で正確、かつ安全な回答を生成。2022年11月公開後、2ヶ月で1億ユーザーを突破し社会現象に。

📊 言語タスクと評価ベンチマーク

🔰 初心者

BERTやGPTの性能はどうやって評価するんですか？

🎓 上級者

GLUEとSuperGLUEというベンチマークが有名だよ。複数の言語タスクをまとめて評価することで、モデルの「総合的な言語理解力」を測れるんだ。

主な自然言語処理タスク

感情分析（Sentiment Analysis）：テキストが肯定的か否定的かを判定
自然言語推論（NLI）：2文の関係（含意・矛盾・中立）を判定
意味的類似度（STS）：2文の意味がどれくらい似ているかを評価
質問応答（QA）：質問に対して文書から回答を抽出
固有表現認識（NER）：テキスト中の人名・地名・組織名を識別
文書要約（Summarization）：長い文を短くまとめる
機械翻訳（MT）：ある言語のテキストを別の言語に変換

GLUE

General Language Understanding Evaluation（2018年）

9つの言語理解タスクのベンチマーク
感情分析、NLI、類似度判定など
BERTが人間のスコアを超えて「解かれた」と判断
→ より難しいSuperGLUEが作られた

SuperGLUE

GLUEの後継・より難しいベンチマーク（2019年）

8つのより困難な言語理解タスク
常識推論、因果推論など高度なタスクを追加
GLUEより人間のスコアとの差が大きい
大規模モデルの性能比較に使用

マルチタスク言語モデル

複数のNLPタスクを同時に学習し、1つのモデルで多様なタスクに対応するモデル

考え方：各タスクを個別に学習するのではなく、複数タスクを同時に学習することで、タスク間で共有される言語知識を効率的に活用する。

代表例：

MT-DNN：BERTベース＋複数タスク同時ファインチューニング
T5（Google）：すべてのNLPタスクを「テキスト→テキスト」形式に統一して学習
GPT-3以降：プロンプトで指示するだけで多様なタスクを実行（暗黙的なマルチタスク）

利点：タスク間の知識転移により汎化性能が向上。GLUEベンチマークなどで高スコアを達成。

📋 モデル全体比較

モデル	型	事前学習	特徴	得意タスク
BERT	Encoder	MLM + NSP	双方向の文脈理解	分類・QA・NER
ALBERT	Encoder	MLM + SOP	パラメータ共有で軽量化	BERTと同等タスク
DistilBERT	Encoder	蒸留	BERTの97%性能を60%サイズで	推論速度重視のタスク
MT-DNN	Encoder	MLM + マルチタスクFT	複数タスク同時学習で汎化性能向上	GLUE全般
GPT-1	Decoder	次の単語予測	事前学習＋FTの有効性を実証	文章生成
GPT-2	Decoder	次の単語予測	FTなしでも高品質な文章生成	文章生成
GPT-3	Decoder	次の単語予測	1750億パラメータ。Few-shot可能	汎用（プロンプト指示）
ChatGPT	Decoder	GPT + RLHF	人間のフィードバックで対話最適化	対話・汎用

⚠️ ハルシネーション（幻覚）

🔰 初心者

LLMが間違った情報を自信たっぷりに答えることがあるって聞きましたが？

🎓 上級者

それがハルシネーション（Hallucination / 幻覚）だね。LLMは「次に来る確率の高いトークン」を生成しているだけなので、事実と異なる内容をあたかも正しいかのように生成してしまうことがあるんだ。

ハルシネーション（Hallucination）

LLMが事実と異なる内容をもっともらしく生成する現象。学習データに含まれない知識や最新情報について質問された場合に特に発生しやすい。

主な対策：
・RAG（検索拡張生成）：外部知識ベースを検索して参照しながら回答を生成
・ファインチューニング：特定ドメインのデータで追加学習し精度を向上
・RLHF：人間のフィードバックで「わからない」と正直に答える能力を強化

✨ 創発的能力（Emergent Abilities）

🔰 初心者

GPT-3以降、LLMが急に賢くなったように見えるのはなぜですか？

🎓 上級者

大規模モデルが一定のスケールを超えると突然新しい能力が出現する現象があって、これを創発的能力（Emergent Abilities）と呼ぶんだ。スケーリング則では予測できない「相転移」のような振る舞いだよ。

創発的能力（Emergent Abilities）

大規模言語モデルが一定のパラメータ数・データ量を超えると、突然新しい能力が出現する現象。

具体例：
・算数（多桁の足し算・引き算）
・推論（論理的な思考の連鎖）
・コード生成（プログラミング）
・Chain of Thought（段階的な思考）

特徴：小さいモデルではほぼ0%の精度だったものが、モデルサイズが閾値を超えると急激に精度が上昇する。スケーリング則の滑らかなべき乗則では予測できない不連続な変化であり、物理学の「相転移」に例えられる。

GPT-3（1750億パラメータ）以降で注目され、大規模モデルの開発競争を加速させた要因の一つ。

📝 まとめ

G検定で押さえるべきポイント

基盤モデル：大量データで事前学習し、様々なタスクに転用できる大規模モデル（BERT、GPTなど）
事前学習→ファインチューニング：ラベルなしデータで一般知識を学習→少量のラベルありデータで特定タスクに微調整
スケーリング則：パラメータ数・データ量・計算量を増やすとべき乗則で性能が向上する法則
BERT：Encoder型。MLM（マスクされた単語の予測）とNSP（次文判定）で双方向の文脈理解を獲得。文の「理解」が得意
ALBERT：BERTのパラメータ共有・埋め込み分解で軽量化。NSPの代わりにSOP
DistilBERT：BERTを知識蒸留で小型化。97%の性能を60%のサイズで実現
MT-DNN：BERTベースで複数タスクを同時にファインチューニング（マルチタスク学習）
GPT：Decoder型。次の単語を予測する自己回帰型言語モデル。文の「生成」が得意
ChatGPT：GPTにRLHF（人間のフィードバックによる強化学習）を適用し、対話に最適化
GLUE / SuperGLUE：複数のNLPタスクをまとめた評価ベンチマーク。BERTがGLUEで人間超え→SuperGLUEが後継
Decoder型（GPT）は生成、Encoder型（BERT）は理解、Encoder-Decoder型（T5）は両方が得意
ハルシネーション（Hallucination）：LLMが事実と異なる内容をもっともらしく生成する現象。対策としてRAG、ファインチューニング、RLHFなど
創発的能力（Emergent Abilities）：大規模モデルが一定のスケールを超えると突然新しい能力（算数・推論・コード生成等）が出現する現象。スケーリング則では予測できない「相転移」のような振る舞い。GPT-3以降で注目