確率分布をイチからわかりやすく解説

🗺️ まず全体像：確率分布の2大分類

🎯

確率分布は「取りうる値の種類」で2つに分かれる

離散型：値が整数だけ（0, 1, 2, 3…）。「何回起きたか」を数える。
連続型：値が小数も含む実数。「何cmか」「何kgか」を測る。

離散型（整数値）

「何回？」「何個？」

ベルヌーイ分布

1回だけ → 成功 or 失敗

↓ n回に拡張

二項分布

n回の試行 → 成功は何回？

↓ n→∞, p→0

ポアソン分布

まれなイベントが何回？

連続型（実数値）

「何cm？」「何秒？」

正規分布（ガウス分布）

最も基本。釣鐘型。

↓ サンプル少ない時の代用

t分布

正規分布の「裾が厚い版」

↓ 正規分布を二乗して足す

カイ二乗分布（χ²分布）

独立性の検定などに使用

🪙 ① ベルヌーイ分布 ── 最もシンプルな確率分布

🪙

ひとことで言うと

1回だけ試行して、成功（1）か失敗（0）かの2択。
コインを1回投げて表か裏か。スイッチのON/OFF。合格/不合格。
確率分布の中で最もシンプルな基本形。

ベルヌーイ分布の形（p = 0.3 の場合）

70%

失敗（0）

30%

成功（1）

棒が2本だけ！これ以上シンプルな分布はない。

ベルヌーイ分布のまとめ：
✅ パラメータ：p（成功確率）だけ
✅ 取りうる値：0 か 1 のみ
✅ 平均 = p、分散 = p(1−p)
✅ 全ての離散型分布の最も基本的な構成要素
✅ p=0.5 のとき：公平なコイン投げ

🎯 ② 二項分布 ── ベルヌーイをn回繰り返す

🎯

ひとことで言うと

成功確率pの試行をn回繰り返して、成功が何回あるかを数える。
コインを10回投げて表が何回出るか。10問のテストで何問正解するか。

二項分布の形（n=10, p=0.3）

10回投げて成功確率30%のとき、成功回数ごとの確率

2.8%

0回

12.1%

1回

23.3%

2回

26.7%

3回

20.0%

4回

10.3%

5回

3.7%

6回

0.9%

7+

★ 最も起きやすいのは np = 10×0.3 = 3回（＝平均値）のあたり

🔗

ベルヌーイとの関係

n = 1 のときの二項分布＝ベルヌーイ分布。
つまりベルヌーイは二項分布の特殊ケース（1回だけ版）。

二項分布のまとめ：
✅ パラメータ：n（試行回数）と p（成功確率）
✅ 取りうる値：0, 1, 2, ... n（上限がnで有限）
✅ 平均 = np、分散 = np(1−p)
✅ n=1 のとき → ベルヌーイ分布
✅ nが大きくpが小さいとき → ポアソン分布で近似可能

📞 ③ ポアソン分布 ── まれな出来事を数える

📞

ひとことで言うと

一定の時間や空間の中で、まれなイベントが何回起きるかの分布。
1時間にコールセンターに電話が何回くるか。1ページに誤植が何個あるか。
試行回数n がわからない（または非常に大きい）ときに使う。

ポアソン分布の形（λ = 3）

5.0%

0回

14.9%

1回

22.4%

2回

22.4%

3回

16.8%

4回

10.1%

5回

5.0%

6回

2.2%

7+

二項分布と形は似ているが、上限がないのがポイント（理論上は∞まで）

ポアソン分布のまとめ：
✅ パラメータ：λ（ラムダ、平均回数）だけ
✅ 取りうる値：0, 1, 2, ... ∞（上限なし）
✅ 平均 = λ、分散 = λ（平均と分散が同じ！← 超重要）
✅ 二項分布でn→∞、p→0の極限 → ポアソンの極限定理
✅ λが大きくなると → 正規分布に近づく

⚖️ 離散型3つの比較

🪜

たとえ話で3つの違いを整理

ベルヌーイ：サイコロを1回振って6が出るか出ないか
二項分布：サイコロを10回振って6が何回出るか
ポアソン：1時間に自然災害が何回起きるか（何回振ったかも不明）

	ベルヌーイ	二項分布	ポアソン
試行回数	1回	n回（既知）	不明（∞とみなす）
パラメータ	p	n, p	λ
取りうる値	0 or 1	0〜n	0〜∞
平均	p	np	λ
分散	p(1−p)	np(1−p)	λ（平均と同じ！）
具体例	コイン1回	10問テスト	1時間の電話回数
関係	二項の n=1版	ベルヌーイの n回拡張	二項の n→∞, p→0

🔔 ④ 正規分布（ガウス分布）── 全ての分布の王様

🔔

ひとことで言うと

左右対称の釣鐘型をした、最も基本的な連続型確率分布。
身長、テストの点数、測定誤差など、自然界のあらゆる現象に登場する。
「平均の近くの値が出やすく、離れるほど出にくい」という直感どおりの分布。

正規分布の形 ── 釣鐘型カーブ

68-95-99.7 ルール

📏

超重要！覚えるべき3つの数字

平均μから±1σの範囲にデータの約68%が入る
平均μから±2σの範囲にデータの約95%が入る
平均μから±3σの範囲にデータの約99.7%が入る

例：テストの平均60点、標準偏差10点なら、
・50〜70点（±1σ）に約68%の生徒がいる
・40〜80点（±2σ）に約95%の生徒がいる

正規分布のまとめ：
✅ パラメータ：μ（平均）と σ²（分散）
✅ 取りうる値：−∞ 〜 +∞（連続値）
✅ 左右対称の釣鐘型
✅ 68-95-99.7ルール（±1σに68%、±2σに95%、±3σに99.7%）
✅ μ=0, σ²=1 のとき → 標準正規分布 N(0,1)
✅ 中心極限定理：どんな分布でもサンプル平均を取ると正規分布に近づく
✅ ポアソン分布もλが大きいと正規分布に近づく

📐 ⑤ t分布（スチューデントのt分布）

🍺

名前の由来

ギネスビール醸造所で品質管理をしていた統計学者ウィリアム・ゴセットが発見。
会社が論文発表を禁止していたため、「Student（学生）」というペンネームで発表。
だから「スチューデントのt分布」と呼ばれる。

なぜt分布が必要なのか？

❓

そもそもの問題

正規分布を使うには、母集団の分散σ²がわかっている必要がある。
でも現実にはσ²はわからないことが多い。少ないサンプルから推定するしかない。

サンプルが少ないと推定の誤差が大きい。
→ 正規分布よりも「極端な値が出やすい」ことを考慮した分布が必要。
→ それがt分布！

正規分布 vs t分布の形

t分布は正規分布より山が低く、裾が厚い（極端な値が出やすい）

自由度（df）で形が変わる

📊

自由度とは？

t分布のパラメータは自由度 df（degree of freedom）。
基本的にdf = サンプル数 − 1。

dfが小さい（サンプルが少ない）→ 裾が厚い（不確実性が大きい）
dfが大きい（サンプルが多い）→ 正規分布に近づく

df → ∞ で完全に正規分布と一致する！
つまりt分布は「サンプルが少ない時のための、より慎重な正規分布」。

自由度による形の変化

df = 1

裾がとても厚い

df = 5

まだ少し厚い

df = 30

ほぼ正規分布

df = ∞

= 正規分布

t分布はどこで使う？ → t検定

🧪

たとえ話：新薬の効果を検証

新薬を10人に投与して効果を測った。「この薬は効くか？」を判断したい。

10人しかいないから正規分布を使うと、誤差を過小評価してしまう。
→ t分布を使って「裾が厚い＝極端な結果が出やすい」ことを考慮する。
→ これがt検定。サンプル数が少ないときの仮説検定に使う。

t分布のまとめ：
✅ パラメータ：自由度 df（= サンプル数 − 1）
✅ 正規分布より山が低く、裾が厚い（極端な値が出やすい）
✅ df → ∞ で正規分布に一致
✅ 目安としてdf ≧ 30くらいでほぼ正規分布に近似可能
✅ 母分散が未知で、サンプル数が少ないときに使う
✅ 主な用途：t検定（平均値の差の検定）
✅ 名前の由来：「Student」はゴセットのペンネーム

🔥 ⑥ カイ二乗分布（χ²分布）

🎲

ひとことで言うと

標準正規分布に従う値を二乗して足し合わせたときにできる分布。
「データの散らばり具合」や「期待した分布と実際の分布のズレ」を測るのに使う。

どうやって作られる？

カイ二乗分布の作り方

Z₁
標準正規

²

+

Z₂
標準正規

²

+ ...

+

Zₖ
標準正規

²

=

χ²
自由度 k

標準正規分布に従う独立な変数をk個、それぞれ二乗して足すと → 自由度kのカイ二乗分布になる

カイ二乗分布の形 ── 自由度で大きく変わる

df = 2：0に集中する急なカーブ。左に激しく偏る。

df = 5：少し右にずれて、やや釣鐘型に。

df = 10：さらに右にずれて、正規分布に近づいていく。

カイ二乗分布はどこで使う？

代表的な用途：カイ二乗検定

🔗

① 独立性の検定

2つの変数に関連があるか？
例：「性別」と「商品の購入」に
関係があるか？
→ クロス集計表を使って検定

🎯

② 適合度検定

実際のデータが期待した分布に
合っているか？
例：サイコロの各目は
均等に出ているか？

📝

カイ二乗検定のイメージ

「期待した値」と「実際の値」のズレの大きさを合計する。

χ² = Σ（実際の値 − 期待値）² / 期待値

このズレが大きすぎれば → 「偶然ではない、何か関係がある！」と判断。
ズレが小さければ → 「偶然の範囲内、関係はなさそう」と判断。

カイ二乗分布のまとめ：
✅ パラメータ：自由度 k
✅ 標準正規分布の値を二乗して足すと得られる
✅ 値は常に0以上（二乗の合計だから負にならない）
✅ dfが小さい → 左に偏った非対称形 / dfが大きい → 正規分布に近づく
✅ 主な用途：カイ二乗検定（独立性の検定、適合度検定）
✅ χ²検定の考え方：「期待値と実際のズレ」の大きさを測る

⚔️ t分布 vs カイ二乗分布 ── 何が違う？

	t分布	カイ二乗分布（χ²）
何から作られる？	標準正規分布をカイ二乗分布で割る	標準正規分布を二乗して足す
形	左右対称の釣鐘型（正規分布に似るが裾が厚い）	左に偏った非対称形（dfが大きいと対称に近づく）
取りうる値	−∞ 〜 +∞	0 〜 +∞（負にならない）
パラメータ	自由度 df	自由度 k
df大きいときの極限	→ 正規分布に一致	→ 正規分布に近づく
何を測る？	平均値の差「この差は偶然か？」	分布のズレ「期待と実際は合ってるか？」
代表的な使い方	t検定平均値の差の検定	χ²検定独立性の検定適合度検定

🏥

使い分けのたとえ話

t検定：新薬Aと既存薬Bを10人ずつに投与。「平均の効き目に差があるか？」
→ 平均値の比較 → t分布を使う

χ²検定：100人にアンケートして男女×商品A/Bの購入を調べた。「性別と購入に関連があるか？」
→ カテゴリデータのクロス集計 → カイ二乗分布を使う

🏁 全体まとめ

分布	型	パラメータ	平均	分散	特徴・用途
ベルヌーイ	離散	p	p	p(1−p)	1回だけ、0か1か
二項	離散	n, p	np	np(1−p)	n回中何回成功？
ポアソン	離散	λ	λ	λ	まれなイベントの回数。平均=分散
正規	連続	μ, σ²	μ	σ²	釣鐘型。全ての基本。68-95-99.7
t分布	連続	df	0 (df>1)	df/(df−2) (df>2)	正規の裾厚版。t検定。df→∞で正規
カイ二乗	連続	k	k	2k	二乗の合計。χ²検定。0以上のみ

分布間のつながり

ベルヌーイ

↓ n回に拡張

二項分布

↓ n→∞, p→0

ポアソン分布

↓ λが大きくなると

正規分布

全ての分布の中心

↓ サンプル少+母分散未知

t分布

df→∞で正規に戻る

↓ 二乗して足し合わせる

カイ二乗分布

k→∞で正規に近づく

G検定で問われるポイント：

✅ 離散型（ベルヌーイ、二項、ポアソン）vs 連続型（正規、t、カイ二乗）
✅ ポアソン分布の 平均=分散=λ
✅ 正規分布の 68-95-99.7ルール
✅ ベルヌーイ →（n回）→ 二項 →（n→∞, p→0）→ ポアソン →（λ大）→ 正規の流れ
✅ t分布：母分散が未知＋サンプル少ないときに使う。df→∞で正規分布に一致
✅ カイ二乗分布：独立性の検定や適合度検定に使う。値は0以上のみ
✅ t検定は「平均値の差」、χ²検定は「カテゴリの関連性」を調べる

確率分布をイチから理解する

🗺️ まず全体像：確率分布の2大分類

🪙 ① ベルヌーイ分布 ── 最もシンプルな確率分布

ベルヌーイ分布の形（p = 0.3 の場合）

🎯 ② 二項分布 ── ベルヌーイをn回繰り返す

二項分布の形（n=10, p=0.3）

📞 ③ ポアソン分布 ── まれな出来事を数える

ポアソン分布の形（λ = 3）

⚖️ 離散型3つの比較

🔔 ④ 正規分布（ガウス分布）── 全ての分布の王様

正規分布の形 ── 釣鐘型カーブ

68-95-99.7 ルール

📐 ⑤ t分布（スチューデントのt分布）

なぜt分布が必要なのか？

正規分布 vs t分布の形

自由度（df）で形が変わる

自由度による形の変化

t分布はどこで使う？ → t検定

🔥 ⑥ カイ二乗分布（χ²分布）

どうやって作られる？

カイ二乗分布の作り方

カイ二乗分布の形 ── 自由度で大きく変わる

カイ二乗分布はどこで使う？

代表的な用途：カイ二乗検定

⚔️ t分布 vs カイ二乗分布 ── 何が違う？

🏁 全体まとめ

分布間のつながり