生成AIとプロンプトエンジニアリング

⚡ 識別AIと生成AI

🔰 初心者

最近「生成AI」という言葉をよく聞きますが、従来のAIと何が違うんですか？

🎓 上級者

AIには大きく識別AI（Discriminative AI）と生成AI（Generative AI）の2種類がある。識別AIは「分類・判定」が仕事で、生成AIは「新しいコンテンツを作り出す」のが仕事だよ。

識別AI（Discriminative）

入力データがどのカテゴリに属するかを判定

画像分類（猫 or 犬）
スパムメール判定
感情分析（ポジティブ or ネガティブ）
異常検知
出力はラベル・確率

生成AI（Generative）

学習パターンに基づき新しいコンテンツを生成

文章生成（ChatGPT）
画像生成（Stable Diffusion、DALL-E）
コード生成（GitHub Copilot）
音楽・動画生成
出力はテキスト・画像・コードなど

💬 プロンプトとプロンプトエンジニアリング

🔰 初心者

ChatGPTに質問を入力しますよね。あの入力のことを「プロンプト」と呼ぶんですか？

🎓 上級者

その通り。プロンプト（Prompt）は生成AIに与える指示文・入力文のこと。そして、望んだ出力を得るためにプロンプトを工夫する技術がプロンプトエンジニアリングだよ。

プロンプトエンジニアリング（Prompt Engineering）

生成AIから望ましい出力を引き出すために、プロンプト（入力文）を設計・最適化する技術。

モデルのパラメータを変更せずに、指示の仕方だけで出力の品質を大幅に向上させられる。
ファインチューニングが不要なため、コストが低く手軽に試せるのがメリット。

🛠️ プロンプトのテクニック

🔰 初心者

プロンプトを工夫するって、具体的にどんなテクニックがあるんですか？

🎓 上級者

代表的なのはZero-shot、Few-shot、Chain of Thought（CoT）の3つだよ。例を見せるかどうか、思考過程を示すかどうかで使い分けるんだ。

テクニック	方法	特徴	適したタスク
Zero-shot	例なし、指示のみ	最もシンプル。追加データ不要	単純な分類・翻訳
One-shot	1個の例を提示	出力形式を1例で明示	形式指定が必要なタスク
Few-shot	数個の例を提示	パターンを学習させる。精度向上	分類・抽出・変換
Chain of Thought（CoT）	「段階的に考えて」と指示	推論過程を明示させて精度向上	推論・算数・論理問題

Zero-shot / One-shot / Few-shot とは？

これらは「プロンプトに含める例の数」を表す用語：

Zero-shot：例を0個 → 指示文だけでタスクを実行
One-shot：例を1個 → 1つの例で出力形式を示す
Few-shot：例を数個 → 複数の例でパターンを示す

GPT-3の登場で注目された。モデルのパラメータを更新（ファインチューニング）せずに、プロンプトだけでタスクを実行できることをIn-context Learning（文脈内学習）と呼ぶ。

🤖 主要な文章生成AI

🔰 初心者

ChatGPT以外にも文章生成AIはあるんですか？

🎓 上級者

各社が競うように開発しているよ。OpenAIのChatGPT、GoogleのGemini（旧Bard）、MetaのLLaMAが三大勢力だね。

ChatGPT / ChatGPT Plus（OpenAI）

GPTベースの対話特化AI。RLHFで安全で有用な回答を生成

ChatGPT（無料版）：GPT-3.5ベース。2022年11月公開、2ヶ月で1億ユーザー突破。

ChatGPT Plus（有料版）：GPT-4を搭載。テキストだけでなく画像入力にも対応（マルチモーダル）。プラグイン機能や高度な推論能力を提供。

Bard → Gemini（Google）

GoogleのAIチャットサービス。PaLM 2 → Geminiモデルへ進化

PaLM 2：Googleが2023年に発表した大規模言語モデル。多言語対応と推論能力に優れる。

Bard：PaLM 2を搭載したGoogleのチャットAI。ChatGPTの対抗サービスとして2023年公開。

Gemini：2024年にBardを名称変更。同名の新モデル「Geminiモデル」（PaLM 2の後継）を搭載。テキスト・画像・音声・動画のマルチモーダルにネイティブ対応。

LLaMA / LLaMA 2（Meta）

Metaが公開したオープンソースの大規模言語モデル

LLaMA（Large Language Model Meta AI, 2023年）：研究者向けに公開。比較的小さいモデルサイズでも高い性能を実現。

LLaMA 2（2023年）：商用利用も可能なオープンソースモデルとして公開。7B〜70Bパラメータの複数サイズを提供。

意義：オープンソースにより、企業や研究者が自由にカスタマイズ・ファインチューニングできる。大手独占ではなくAIの民主化に貢献。

🎯 RLHF — 人間のフィードバックによる強化学習

🔰 初心者

ChatGPTがあんなに自然に回答できるのは、RLHFのおかげなんですよね。もう少し詳しく知りたいです。

🎓 上級者

RLHFは3つのステップから成るよ。特に重要なのが報酬モデルとポリシーの最適化だ。

報酬モデル（Reward Model）とポリシー（Policy）

報酬モデル：人間のランキングデータから学習した「回答の良し悪しを自動採点するモデル」。
人間がすべての回答を毎回評価するのは不可能なため、人間の好みを代行するモデルを作る。

ポリシー（方策）：強化学習の用語で「どの状態でどの行動を取るか」の戦略。
RLHFでは「どのプロンプトに対してどう回答するか」がポリシーにあたる。
報酬モデルのスコアを報酬としてPPO（Proximal Policy Optimization）でポリシーを更新し、より良い回答を生成する方策を獲得する。

📋 主要モデル比較

モデル / サービス	開発元	ベースモデル	特徴
ChatGPT	OpenAI	GPT-3.5	RLHF対話AI。2ヶ月で1億ユーザー
ChatGPT Plus	OpenAI	GPT-4	有料版。マルチモーダル・プラグイン対応
Bard	Google	PaLM 2	Googleの対話AI。→ Geminiに名称変更
Gemini	Google	Geminiモデル	Bardの後継。マルチモーダルにネイティブ対応
PaLM 2	Google	—	多言語・推論に強い大規模LLM
LLaMA	Meta	—	研究向けオープンソースLLM
LLaMA 2	Meta	—	商用利用可能なオープンソースLLM

⚠️ ハルシネーション（Hallucination）

🔰 初心者

生成AIが嘘をつくことがあるって聞いたんですが、本当ですか？

🎓 上級者

「嘘をつく」というより、事実に反する情報をもっともらしく生成してしまう現象だね。これをハルシネーション（幻覚）と呼ぶんだ。生成AIの最大の課題の一つだよ。

ハルシネーション（Hallucination / 幻覚）

LLMが事実に反する情報をもっともらしく生成する現象。

なぜ起きるのか：
LLMは「次に来る確率が高いトークン」を予測して文章を生成しているだけで、事実かどうかを検証する仕組みを持っていない。特に学習データにない知識を求められた場合に発生しやすい。

問題が深刻な場面：
医療・法律・金融など正確性が重要な分野では、ハルシネーションが誤った判断・意思決定につながるリスクがある。

対策：RAG（検索拡張生成）、ファインチューニング、人間によるチェック（RLHF）など。

🔍 RAG（検索拡張生成）

🔰 初心者

ハルシネーションを防ぐ方法はあるんですか？

🎓 上級者

最も有力なアプローチがRAG（Retrieval-Augmented Generation / 検索拡張生成）だよ。生成AIが回答する前に、外部の知識ベースを検索して参照情報を取得し、それに基づいて回答を生成する仕組みなんだ。

RAG（Retrieval-Augmented Generation / 検索拡張生成）

生成時に外部の知識ベースを検索し、その情報を参照しながら回答を生成する手法

仕組み：ユーザーの質問に関連するドキュメントを外部知識ベースから検索（Retrieval）し、そのドキュメントを文脈としてLLMに与えて回答を生成（Generation）する。

ハルシネーション対策として最も有力：

LLMが持っていない最新情報や専門知識を外部から補完できる
回答の根拠となるドキュメントを提示できるため、信頼性の検証が容易
モデルの再学習が不要で、知識ベースの更新だけで知識の更新も容易

活用例：企業内の社内文書を知識ベースとして利用し、社内情報に基づいた正確な回答を生成する社内チャットボットなど。

📝 まとめ

G検定で押さえるべきポイント

識別AIはデータを分類・判定、生成AIは新しいコンテンツを創造する
プロンプト：生成AIに与える指示文。プロンプトエンジニアリングはプロンプトを工夫して望ましい出力を得る技術
Zero-shot：例なし、One-shot：例1個、Few-shot：例数個をプロンプトに含める手法
Chain of Thought（CoT）：「段階的に考えて」と指示して推論過程を明示させるテクニック。推論・算数で精度向上
In-context Learning：FTなしにプロンプト内の例だけでタスクを実行する能力
ChatGPT Plus：GPT-4搭載の有料版。マルチモーダル対応
Bard → Gemini（Google）：PaLM 2 → Geminiモデルへ進化。マルチモーダルにネイティブ対応
LLaMA / LLaMA 2（Meta）：オープンソースのLLM。LLaMA 2は商用利用も可能
RLHFの3ステップ：① SFT（教師あり微調整）→ ② 報酬モデルの学習（人間の好みを代行）→ ③ ポリシーのPPO最適化
報酬モデル：回答の良し悪しを自動採点するモデル。ポリシー：どう回答するかの戦略（強化学習の用語）
ハルシネーション（Hallucination）：LLMが事実に反する情報をもっともらしく生成する現象。学習データにない知識を求められた場合に特に発生しやすい。生成AIの最大の課題の一つ
RAG（Retrieval-Augmented Generation / 検索拡張生成）：外部知識ベースを検索し、その情報を参照して回答を生成する手法。ハルシネーション対策として最も有力。モデルの再学習が不要で知識の更新が容易