🎲 📊 🔔

確率分布をイチから理解する

ベルヌーイ / 二項 / ポアソン / 正規 / t分布 / カイ二乗分布

🗺️ まず全体像:確率分布の2大分類

🎯
確率分布は「取りうる値の種類」で2つに分かれる
離散型:値が整数だけ(0, 1, 2, 3…)。「何回起きたか」を数える。
連続型:値が小数も含む実数。「何cmか」「何kgか」を測る。
離散型(整数値)
「何回?」「何個?」
ベルヌーイ分布
1回だけ → 成功 or 失敗
↓ n回に拡張
二項分布
n回の試行 → 成功は何回?
↓ n→∞, p→0
ポアソン分布
まれなイベントが何回?
連続型(実数値)
「何cm?」「何秒?」
正規分布(ガウス分布)
最も基本。釣鐘型。
↓ サンプル少ない時の代用
t分布
正規分布の「裾が厚い版」
↓ 正規分布を二乗して足す
カイ二乗分布(χ²分布)
独立性の検定などに使用

🪙 ① ベルヌーイ分布 ── 最もシンプルな確率分布

🪙
ひとことで言うと
1回だけ試行して、成功(1)か失敗(0)かの2択。
コインを1回投げて表か裏か。スイッチのON/OFF。合格/不合格。
確率分布の中で最もシンプルな基本形

ベルヌーイ分布の形(p = 0.3 の場合)

70%
失敗(0)
30%
成功(1)

棒が2本だけ!これ以上シンプルな分布はない。

ベルヌーイ分布のまとめ:
✅ パラメータ:p(成功確率)だけ
✅ 取りうる値:0 か 1 のみ
✅ 平均 = p、分散 = p(1−p)
✅ 全ての離散型分布の最も基本的な構成要素
✅ p=0.5 のとき:公平なコイン投げ

🎯 ② 二項分布 ── ベルヌーイをn回繰り返す

🎯
ひとことで言うと
成功確率pの試行をn回繰り返して成功が何回あるかを数える。
コインを10回投げて表が何回出るか。10問のテストで何問正解するか。

二項分布の形(n=10, p=0.3)

10回投げて成功確率30%のとき、成功回数ごとの確率

2.8%
0回
12.1%
1回
23.3%
2回
26.7%
3回
20.0%
4回
10.3%
5回
3.7%
6回
0.9%
7+

★ 最も起きやすいのは np = 10×0.3 = 3回(=平均値)のあたり

🔗
ベルヌーイとの関係
n = 1 のときの二項分布 = ベルヌーイ分布。
つまりベルヌーイは二項分布の特殊ケース(1回だけ版)。
二項分布のまとめ:
✅ パラメータ:n(試行回数)と p(成功確率)
✅ 取りうる値:0, 1, 2, ... n(上限がnで有限)
✅ 平均 = np、分散 = np(1−p)
✅ n=1 のとき → ベルヌーイ分布
✅ nが大きくpが小さいとき → ポアソン分布で近似可能

📞 ③ ポアソン分布 ── まれな出来事を数える

📞
ひとことで言うと
一定の時間や空間の中で、まれなイベントが何回起きるかの分布。
1時間にコールセンターに電話が何回くるか。1ページに誤植が何個あるか。
試行回数n がわからない(または非常に大きい)ときに使う。

ポアソン分布の形(λ = 3)

5.0%
0回
14.9%
1回
22.4%
2回
22.4%
3回
16.8%
4回
10.1%
5回
5.0%
6回
2.2%
7+

二項分布と形は似ているが、上限がないのがポイント(理論上は∞まで)

ポアソン分布のまとめ:
✅ パラメータ:λ(ラムダ、平均回数)だけ
✅ 取りうる値:0, 1, 2, ... ∞(上限なし)
平均 = λ、分散 = λ(平均と分散が同じ!← 超重要)
✅ 二項分布でn→∞、p→0の極限 → ポアソンの極限定理
✅ λが大きくなると → 正規分布に近づく

⚖️ 離散型3つの比較

🪜
たとえ話で3つの違いを整理
ベルヌーイ:サイコロを1回振って6が出るか出ないか
二項分布:サイコロを10回振って6が何回出るか
ポアソン:1時間に自然災害が何回起きるか(何回振ったかも不明)
ベルヌーイ二項分布ポアソン
試行回数 1回 n回(既知) 不明(∞とみなす
パラメータ p n, p λ
取りうる値 0 or 1 0〜n 0〜∞
平均 p np λ
分散 p(1−p) np(1−p) λ(平均と同じ!)
具体例 コイン1回 10問テスト 1時間の電話回数
関係 二項の
n=1版
ベルヌーイの
n回拡張
二項の
n→∞, p→0

🔔 ④ 正規分布(ガウス分布)── 全ての分布の王様

🔔
ひとことで言うと
左右対称の釣鐘型をした、最も基本的な連続型確率分布。
身長、テストの点数、測定誤差など、自然界のあらゆる現象に登場する。
「平均の近くの値が出やすく、離れるほど出にくい」という直感どおりの分布。

正規分布の形 ── 釣鐘型カーブ

μ(平均) μ−σ μ+σ μ−2σ μ+2σ 68.3% 95.4%

68-95-99.7 ルール

📏
超重要!覚えるべき3つの数字
平均μから±1σの範囲にデータの約68%が入る
平均μから±2σの範囲にデータの約95%が入る
平均μから±3σの範囲にデータの約99.7%が入る

例:テストの平均60点、標準偏差10点なら、
・50〜70点(±1σ)に約68%の生徒がいる
・40〜80点(±2σ)に約95%の生徒がいる
正規分布のまとめ:
✅ パラメータ:μ(平均)と σ²(分散)
✅ 取りうる値:−∞ 〜 +∞(連続値)
左右対称の釣鐘型
✅ 68-95-99.7ルール(±1σに68%、±2σに95%、±3σに99.7%)
✅ μ=0, σ²=1 のとき → 標準正規分布 N(0,1)
中心極限定理:どんな分布でもサンプル平均を取ると正規分布に近づく
✅ ポアソン分布もλが大きいと正規分布に近づく

📐 ⑤ t分布(スチューデントのt分布)

🍺
名前の由来
ギネスビール醸造所で品質管理をしていた統計学者ウィリアム・ゴセットが発見。
会社が論文発表を禁止していたため、「Student(学生)」というペンネームで発表。
だから「スチューデントのt分布」と呼ばれる。

なぜt分布が必要なのか?

そもそもの問題
正規分布を使うには、母集団の分散σ²がわかっている必要がある。
でも現実にはσ²はわからないことが多い。少ないサンプルから推定するしかない。

サンプルが少ないと推定の誤差が大きい
→ 正規分布よりも「極端な値が出やすい」ことを考慮した分布が必要。
→ それがt分布

正規分布 vs t分布の形

── 正規分布 --- t分布 裾が厚い! 裾が厚い! 山がやや低い

t分布は正規分布より山が低く、裾が厚い(極端な値が出やすい)

自由度(df)で形が変わる

📊
自由度とは?
t分布のパラメータは自由度 df(degree of freedom)
基本的にdf = サンプル数 − 1

dfが小さい(サンプルが少ない)→ 裾が厚い(不確実性が大きい)
dfが大きい(サンプルが多い)→ 正規分布に近づく

df → ∞ で完全に正規分布と一致する!
つまりt分布は「サンプルが少ない時のための、より慎重な正規分布」。

自由度による形の変化

df = 1
裾がとても厚い
df = 5
まだ少し厚い
df = 30
ほぼ正規分布
df = ∞
= 正規分布

t分布はどこで使う? → t検定

🧪
たとえ話:新薬の効果を検証
新薬を10人に投与して効果を測った。「この薬は効くか?」を判断したい。

10人しかいないから正規分布を使うと、誤差を過小評価してしまう。
t分布を使って「裾が厚い=極端な結果が出やすい」ことを考慮する。
→ これがt検定。サンプル数が少ないときの仮説検定に使う。
t分布のまとめ:
✅ パラメータ:自由度 df(= サンプル数 − 1)
✅ 正規分布より山が低く、裾が厚い(極端な値が出やすい)
✅ df → ∞ で正規分布に一致
✅ 目安としてdf ≧ 30くらいでほぼ正規分布に近似可能
✅ 母分散が未知で、サンプル数が少ないときに使う
✅ 主な用途:t検定(平均値の差の検定)
✅ 名前の由来:「Student」はゴセットのペンネーム

🔥 ⑥ カイ二乗分布(χ²分布)

🎲
ひとことで言うと
標準正規分布に従う値を二乗して足し合わせたときにできる分布。
「データの散らばり具合」や「期待した分布と実際の分布のズレ」を測るのに使う。

どうやって作られる?

カイ二乗分布の作り方

Z₁
標準正規
²
+
Z₂
標準正規
²
+ ...
+
Zₖ
標準正規
²
=
χ²
自由度 k

標準正規分布に従う独立な変数をk個、それぞれ二乗して足すと → 自由度kのカイ二乗分布になる

カイ二乗分布の形 ── 自由度で大きく変わる

χ² の値 確率密度 df = 2 df = 5 df = 10
df = 2:0に集中する急なカーブ。左に激しく偏る。
df = 5:少し右にずれて、やや釣鐘型に。
df = 10:さらに右にずれて、正規分布に近づいていく。

カイ二乗分布はどこで使う?

代表的な用途:カイ二乗検定

🔗
① 独立性の検定

2つの変数に関連があるか?
例:「性別」と「商品の購入」に
関係があるか?
クロス集計表を使って検定

🎯
② 適合度検定

実際のデータが期待した分布に
合っているか?
例:サイコロの各目は
均等に出ているか?

📝
カイ二乗検定のイメージ
「期待した値」と「実際の値」のズレの大きさを合計する。

χ² = Σ(実際の値 − 期待値)² / 期待値

このズレが大きすぎれば → 「偶然ではない、何か関係がある!」と判断。
ズレが小さければ → 「偶然の範囲内、関係はなさそう」と判断。
カイ二乗分布のまとめ:
✅ パラメータ:自由度 k
✅ 標準正規分布の値を二乗して足すと得られる
✅ 値は常に0以上(二乗の合計だから負にならない)
✅ dfが小さい → 左に偏った非対称形 / dfが大きい → 正規分布に近づく
✅ 主な用途:カイ二乗検定(独立性の検定、適合度検定)
✅ χ²検定の考え方:「期待値と実際のズレ」の大きさを測る

⚔️ t分布 vs カイ二乗分布 ── 何が違う?

t分布カイ二乗分布(χ²)
何から
作られる?
標準正規分布を
カイ二乗分布で割る
標準正規分布を
二乗して足す
左右対称の釣鐘型
(正規分布に似るが裾が厚い)
左に偏った非対称形
(dfが大きいと対称に近づく)
取りうる値 −∞ 〜 +∞ 0 〜 +∞(負にならない)
パラメータ 自由度 df 自由度 k
df大きい
ときの極限
→ 正規分布に一致 → 正規分布に近づく
何を測る? 平均値の差
「この差は偶然か?」
分布のズレ
「期待と実際は合ってるか?」
代表的な
使い方
t検定
平均値の差の検定
χ²検定
独立性の検定
適合度検定
🏥
使い分けのたとえ話
t検定:新薬Aと既存薬Bを10人ずつに投与。「平均の効き目に差があるか?」
→ 平均値の比較 → t分布を使う

χ²検定:100人にアンケートして男女×商品A/Bの購入を調べた。「性別と購入に関連があるか?」
→ カテゴリデータのクロス集計 → カイ二乗分布を使う

🏁 全体まとめ

分布パラメータ平均分散特徴・用途
ベルヌーイ 離散ppp(1−p) 1回だけ、0か1か
二項 離散n, pnpnp(1−p) n回中何回成功?
ポアソン 離散λλλ まれなイベントの回数。平均=分散
正規 連続μ, σ²μσ² 釣鐘型。全ての基本。68-95-99.7
t分布 連続df0
(df>1)
df/(df−2)
(df>2)
正規の裾厚版。t検定。df→∞で正規
カイ二乗 連続kk2k 二乗の合計。χ²検定。0以上のみ

分布間のつながり

ベルヌーイ
↓ n回に拡張
二項分布
↓ n→∞, p→0
ポアソン分布
↓ λが大きくなると
正規分布
全ての分布の中心
↓ サンプル少+母分散未知
t分布
df→∞で正規に戻る
↓ 二乗して足し合わせる
カイ二乗分布
k→∞で正規に近づく
G検定で問われるポイント:

離散型(ベルヌーイ、二項、ポアソン)vs 連続型(正規、t、カイ二乗)
✅ ポアソン分布の 平均=分散=λ
✅ 正規分布の 68-95-99.7ルール
✅ ベルヌーイ →(n回)→ 二項 →(n→∞, p→0)→ ポアソン →(λ大)→ 正規 の流れ
✅ t分布:母分散が未知+サンプル少ないときに使う。df→∞で正規分布に一致
✅ カイ二乗分布:独立性の検定適合度検定に使う。値は0以上のみ
✅ t検定は「平均値の差」、χ²検定は「カテゴリの関連性」を調べる