大規模言語モデル

BERT・GPT・事前学習と評価ベンチマーク
🔰 初心者

Transformerが登場した後、自然言語処理はどう変わったんですか?

🎓 上級者

Transformerをベースに「大量のテキストで事前学習してから、個別タスクにファインチューニングする」というパラダイムが確立されたんだ。その代表がBERTGPT。これらは基盤モデル(Foundation Model)と呼ばれ、現在のAIの中核になっているよ。

🎓 事前学習とファインチューニング
2段階の学習パラダイム

① 事前学習(Pre-training)
大量のラベルなしテキスト(Wikipedia、書籍など)で、言語の一般的な知識を学習する。教師なし(自己教師あり)学習。

② ファインチューニング(Fine-tuning)
事前学習済みモデルを、特定タスク(感情分析、質問応答など)のラベル付きデータで微調整する。少量のデータでも高精度が得られる。

事前学習 → ファインチューニングのパラダイム ① 事前学習(Pre-training) 大量のラベルなしテキストで学習 (Wikipedia、書籍、Webなど) → 言語の文法・意味・常識を獲得 重みを 引き継ぐ 基盤モデル Foundation Model ② 感情分析にファインチューニング ② 質問応答にファインチューニング ② 機械翻訳にファインチューニング 1つの基盤モデルを様々なタスクに転用できる → タスクごとに一から学習する必要がない

基盤モデル(Foundation Model)

大量のデータで事前学習され、様々なタスクに転用できる大規模モデルの総称

特徴:BERT、GPTなどの大規模言語モデルを指す。スタンフォード大学が2021年に命名。

意義:従来はタスクごとに個別モデルを一から学習していたが、基盤モデルは1つの事前学習で多数のタスクに対応可能。

注意点:学習データのバイアスがすべてのタスクに波及するリスクがある。

スケーリング則(Scaling Laws)

大規模言語モデルの性能は、以下の3つの要素を増やすとべき乗則(Power Law)に従って予測可能に向上するという法則。

モデルのパラメータ数(モデルサイズ)
学習データ量(トークン数)
計算量(GPU時間)

OpenAIの研究(Kaplan et al., 2020年)で発見。「大きくすればするほど賢くなる」ことを示し、GPT-3やGPT-4の開発を後押しした。

🏗️ Transformerの3つの使い方
🔰 初心者

BERTとGPTはどちらもTransformerベースなのに、なぜ別々のモデルがあるんですか?

🎓 上級者

Transformerのエンコーダーとデコーダーのどちらを使うかで、得意なタスクが変わるんだ。BERTはエンコーダーのみ、GPTはデコーダーのみを使っているよ。

Transformerの3つのアーキテクチャ Encoder型 Transformerのエンコーダーのみ 双方向の文脈を理解(Self-Attention) 代表: BERT 得意: 分類・質問応答・NER 文の「理解」が得意 Decoder型 Transformerのデコーダーのみ 左→右の自己回帰(Masked Self-Attn) 代表: GPT 得意: 文章生成・対話・翻訳 文の「生成」が得意 Encoder-Decoder型 両方を使用(元のTransformer) 入力理解 + 出力生成の両方 代表: T5, BART 得意: 翻訳・要約・質問応答 「理解」と「生成」の両方 同じTransformerアーキテクチャでも、使う部分によって得意分野が異なる
📘 BERT
🔰 初心者

BERTって具体的にどうやって事前学習しているんですか?

🎓 上級者

BERTは2つの事前学習タスクを使っているよ。MLM(Masked Language Model)NSP(Next Sentence Prediction)だ。この2つで文の「理解」能力を獲得するんだ。

BERTの2つの事前学習タスク ① MLM(Masked Language Model) 入力テキストの一部を[MASK]で隠し、元の単語を予測 入力: 猫が [MASK] 食べた 正解: 「魚」 ・入力の約15%をランダムにマスクする ・周囲の文脈(前後両方)から予測 → 双方向の文脈理解を獲得 (穴埋め問題を解くイメージ) ※ マスクされた位置だけを予測する ② NSP(Next Sentence Prediction) 2つの文が連続した文かどうかを予測 正例(IsNext): 文A:「猫が好きだ」 → 文B:「毎日一緒に遊ぶ」 → 連続している ✓ 負例(NotNext): 文A:「猫が好きだ」 → 文B:「天気は晴れだ」 → 連続していない × → 文と文の関係性を理解 (質問応答や文間推論に役立つ)

BERT(Bidirectional Encoder Representations from Transformers / Google, 2018年)

Transformerのエンコーダーを使い、双方向の文脈理解を実現した事前学習モデル

アーキテクチャ:Transformerのエンコーダーのみを使用(Encoder型)

事前学習タスク:

  • MLM(Masked Language Model):入力の約15%をランダムに[MASK]で隠し、元の単語を予測。前後両方向の文脈を使うため「双方向(Bidirectional)」
  • NSP(Next Sentence Prediction):2つの文が連続かどうかを予測。文間の関係性を学習

GPTとの違い:GPTは左→右の一方向だが、BERTは双方向。文の「理解」タスク(分類・質問応答・NER等)で圧倒的な性能。

弱点:[MASK]は事前学習時のみ存在し、実際のタスクには出現しない(学習と推論のギャップ)。文章の生成は苦手。

🔬 BERTの派生モデル
🔰 初心者

BERTは優れているのに、なぜ派生モデルがたくさんあるんですか?

🎓 上級者

BERTは巨大でメモリと計算コストが高いという課題があるんだ。ALBERTは「パラメータ削減で軽量化」、DistilBERTは「蒸留で小型化」という方向で改善しているよ。

ALBERT

A Lite BERT — パラメータ効率の改善
  • 埋め込みの分解:大きな埋め込み行列を2つの小行列に分解
  • 層間パラメータ共有:全Transformer層で同じ重みを使い回す
  • パラメータ数を大幅削減しつつ性能を維持
  • NSPの代わりにSOP(Sentence Order Prediction)を使用

DistilBERT

BERTを蒸留で小型化
  • BERTを教師モデルとして知識蒸留
  • 層数を12→6層に削減
  • BERTの性能の97%を保持しつつ60%のサイズ
  • 推論速度が60%高速化

MT-DNN(Multi-Task Deep Neural Network / Microsoft, 2019年)

BERTの事前学習+複数タスクを同時に学習するマルチタスク学習モデル

仕組み:BERTで事前学習した後、複数のNLPタスクを同時にファインチューニングする。タスク間で共有される知識を活用し、各タスクの性能が向上する。

マルチタスク学習の利点:

  • タスク間で共通の言語知識を共有 → 汎化性能が向上
  • 1つのモデルで複数タスクに対応できる
  • GLUEベンチマークで当時のBERTを上回る性能
📗 GPT
🔰 初心者

GPTはBERTとどう違うんですか?同じTransformerベースですよね?

🎓 上級者

最大の違いはアーキテクチャ学習方法だよ。BERTはエンコーダー型で「穴埋め」だけど、GPTはデコーダー型で「次の単語を予測」する。この違いが得意分野の違いを生んでいるんだ。

BERT vs GPT:学習方法の違い BERT(Encoder型 / 双方向) 猫が [MASK] を食べた → 「魚」を予測 前後両方の文脈を見て穴埋め(MLM) GPT(Decoder型 / 左→右) 猫が 魚を → ??? → 「食べた」を予測 左側の文脈だけで次の単語を予測(自己回帰) 得意なこと BERT: 文の理解 分類・NER・QA GPT: 文の生成 文章生成・対話・翻訳 BERTは双方向で「理解」に強い GPTは自己回帰で「生成」に強い
GPTの学習の仕組み:自己回帰型言語モデル

GPTの事前学習は次の単語予測の繰り返し:

「猫」→ 次は「が」と予測
「猫が」→ 次は「魚」と予測
「猫が魚」→ 次は「を」と予測
「猫が魚を」→ 次は「食べた」と予測

この単純なタスクを大量のテキストで行うことで、文法・知識・推論能力を獲得する。
左→右の一方向(Masked Self-Attentionを使用)のため、文章の生成に自然に適している。

GPTによる文章生成の仕組み

GPTの文章生成は「次の1トークンを予測 → 出力に追加 → また次を予測」を繰り返す自己回帰(Autoregressive)方式:

ユーザー入力:「明日の天気は」
→ 「晴れ」を生成(確率が最も高い次の単語)
→ 「晴れ で」を生成
→ 「晴れ で しょ」を生成
→ 「晴れ でしょ う」を生成

生成の度に文脈全体を参照するため、長い文でも整合性のある文章が生成できる。

GPTシリーズの進化 GPT-1 (2018) 1.17億パラメータ 事前学習+FTの有効性を証明 OpenAI / Decoder 12層 GPT-2 (2019) 15億パラメータ FTなしで高品質な文章生成 悪用を懸念して段階公開 GPT-3 (2020) 1750億パラメータ Few-shot学習が可能に プロンプトだけでタスク実行 ChatGPT (2022) GPT-3.5 / GPT-4ベース RLHF(人間のフィードバック による強化学習)で対話に最適化 2ヶ月で1億ユーザー突破 パラメータ数:1億 → 15億 → 1750億 とスケーリング則に沿って拡大 ChatGPTはRLHFにより「有用で安全な対話」を実現。社会現象に

GPT(Generative Pre-trained Transformer / OpenAI, 2018年〜)

Transformerのデコーダーを使い、次の単語を予測する自己回帰型の大規模言語モデル

アーキテクチャ:Transformerのデコーダーのみを使用(Decoder型)

事前学習:大量のテキストで「次の単語を予測」する自己回帰型言語モデリング

進化:

  • GPT-1(2018年):事前学習+ファインチューニングの有効性を示した
  • GPT-2(2019年):FTなしでも高品質な文章を生成。15億パラメータ
  • GPT-3(2020年):1750億パラメータ。プロンプト(指示文)を与えるだけでFTなしにタスクを実行(Few-shot / Zero-shot学習)

ChatGPT(OpenAI, 2022年)

GPTに人間のフィードバックによる強化学習(RLHF)を適用し、対話に最適化したモデル

ベースモデル:GPT-3.5 / GPT-4

RLHF(Reinforcement Learning from Human Feedback):

  • ① GPTの出力を人間が評価(良い/悪いをランク付け)
  • ② 人間の好みを学習する報酬モデルを訓練
  • ③ 報酬モデルを使って強化学習(PPO)でGPTを微調整

結果:有用で正確、かつ安全な回答を生成。2022年11月公開後、2ヶ月で1億ユーザーを突破し社会現象に。

📊 言語タスクと評価ベンチマーク
🔰 初心者

BERTやGPTの性能はどうやって評価するんですか?

🎓 上級者

GLUESuperGLUEというベンチマークが有名だよ。複数の言語タスクをまとめて評価することで、モデルの「総合的な言語理解力」を測れるんだ。

主な自然言語処理タスク

感情分析(Sentiment Analysis):テキストが肯定的か否定的かを判定
自然言語推論(NLI):2文の関係(含意・矛盾・中立)を判定
意味的類似度(STS):2文の意味がどれくらい似ているかを評価
質問応答(QA):質問に対して文書から回答を抽出
固有表現認識(NER):テキスト中の人名・地名・組織名を識別
文書要約(Summarization):長い文を短くまとめる
機械翻訳(MT):ある言語のテキストを別の言語に変換

GLUE

General Language Understanding Evaluation(2018年)
  • 9つの言語理解タスクのベンチマーク
  • 感情分析、NLI、類似度判定など
  • BERTが人間のスコアを超えて「解かれた」と判断
  • → より難しいSuperGLUEが作られた

SuperGLUE

GLUEの後継・より難しいベンチマーク(2019年)
  • 8つのより困難な言語理解タスク
  • 常識推論、因果推論など高度なタスクを追加
  • GLUEより人間のスコアとの差が大きい
  • 大規模モデルの性能比較に使用

マルチタスク言語モデル

複数のNLPタスクを同時に学習し、1つのモデルで多様なタスクに対応するモデル

考え方:各タスクを個別に学習するのではなく、複数タスクを同時に学習することで、タスク間で共有される言語知識を効率的に活用する。

代表例:

  • MT-DNN:BERTベース+複数タスク同時ファインチューニング
  • T5(Google):すべてのNLPタスクを「テキスト→テキスト」形式に統一して学習
  • GPT-3以降:プロンプトで指示するだけで多様なタスクを実行(暗黙的なマルチタスク)

利点:タスク間の知識転移により汎化性能が向上。GLUEベンチマークなどで高スコアを達成。

📋 モデル全体比較
モデル事前学習特徴得意タスク
BERTEncoderMLM + NSP双方向の文脈理解分類・QA・NER
ALBERTEncoderMLM + SOPパラメータ共有で軽量化BERTと同等タスク
DistilBERTEncoder蒸留BERTの97%性能を60%サイズで推論速度重視のタスク
MT-DNNEncoderMLM + マルチタスクFT複数タスク同時学習で汎化性能向上GLUE全般
GPT-1Decoder次の単語予測事前学習+FTの有効性を実証文章生成
GPT-2Decoder次の単語予測FTなしでも高品質な文章生成文章生成
GPT-3Decoder次の単語予測1750億パラメータ。Few-shot可能汎用(プロンプト指示)
ChatGPTDecoderGPT + RLHF人間のフィードバックで対話最適化対話・汎用
⚠️ ハルシネーション(幻覚)
🔰 初心者

LLMが間違った情報を自信たっぷりに答えることがあるって聞きましたが?

🎓 上級者

それがハルシネーション(Hallucination / 幻覚)だね。LLMは「次に来る確率の高いトークン」を生成しているだけなので、事実と異なる内容をあたかも正しいかのように生成してしまうことがあるんだ。

ハルシネーション(Hallucination)

LLMが事実と異なる内容をもっともらしく生成する現象。学習データに含まれない知識や最新情報について質問された場合に特に発生しやすい。

主な対策:
RAG(検索拡張生成):外部知識ベースを検索して参照しながら回答を生成
ファインチューニング:特定ドメインのデータで追加学習し精度を向上
RLHF:人間のフィードバックで「わからない」と正直に答える能力を強化

創発的能力(Emergent Abilities)
🔰 初心者

GPT-3以降、LLMが急に賢くなったように見えるのはなぜですか?

🎓 上級者

大規模モデルが一定のスケールを超えると突然新しい能力が出現する現象があって、これを創発的能力(Emergent Abilities)と呼ぶんだ。スケーリング則では予測できない「相転移」のような振る舞いだよ。

創発的能力(Emergent Abilities)

大規模言語モデルが一定のパラメータ数・データ量を超えると、突然新しい能力が出現する現象

具体例:
算数(多桁の足し算・引き算)
推論(論理的な思考の連鎖)
コード生成(プログラミング)
Chain of Thought(段階的な思考)

特徴:小さいモデルではほぼ0%の精度だったものが、モデルサイズが閾値を超えると急激に精度が上昇する。スケーリング則の滑らかなべき乗則では予測できない不連続な変化であり、物理学の「相転移」に例えられる。

GPT-3(1750億パラメータ)以降で注目され、大規模モデルの開発競争を加速させた要因の一つ。

📝 まとめ
G検定で押さえるべきポイント