平均・分散・標準偏差・標準化

統計の基本用語を整理して理解する
🗺️ 全体像:それぞれの関係
用語の関係マップ データ [160, 170, 180] 中心を求める 平均 = 170 散らばりを求める 分散 = 66.67(単位が²) √ルートを取る 標準偏差 = 8.16(元の単位) 平均と標準偏差 を使って変換 標準化 平均0, 分散1に変換 種類 平均 → 値(1つの数値) 分散 → 値(1つの数値) 標準偏差 → 値(1つの数値) 標準化 → 処理(変換) ↑ これだけ違う!
図1: 平均・分散・標準偏差は「値」、標準化は「処理」
📋 一覧表でまとめ
用語 何を表す? 計算式 一言で
平均 データの中心 全部足して ÷ 個数 真ん中はどこ?
分散 散らばり具合 (各データ−平均)² の平均 どれくらいバラバラ?
標準偏差 散らばり具合 √分散 分散を元の単位に戻す
標準化 データの変換処理 (データ−平均) ÷ 標準偏差 スケールを揃える
📊 平均(Mean)

🎯 平均とは

データの「中心」を表す値。全部足して個数で割る。

具体例
データ: 160, 170, 180
平均 = (160 + 170 + 180) ÷ 3 = 170
平均 = 全データの合計 ÷ データ数
「みんなを足して、人数で割る」
📊 分散(Variance)

🎯 分散とは

データが平均からどれくらい散らばっているかを表す値。

各データと平均の差(偏差)を2乗して、その平均を取る。

具体例
データ: 160, 170, 180 (平均 = 170)

160の偏差: 160 - 170 = -10 → 2乗すると 100
170の偏差: 170 - 170 = 0 → 2乗すると 0
180の偏差: 180 - 170 = +10 → 2乗すると 100

分散 = (100 + 0 + 100) ÷ 3 = 66.67
分散 = (各データ − 平均)² の平均
「平均からのズレを2乗して平均する」
❓ なぜ2乗するの?

プラスとマイナスのズレが打ち消し合わないようにするため。

例:-10 と +10 をそのまま足すと 0 になってしまう。
2乗すれば 100 + 100 = 200 となり、散らばりが消えない。

📊 標準偏差(Standard Deviation)

🎯 標準偏差とは

分散のルート(√)を取った値。

分散だと単位が「cm²」のようになってしまうので、ルートを取って元の単位(cm)に戻す。

具体例
分散 = 66.67
標準偏差 = √66.67 = 8.16

「データは平均から約8cmくらい散らばっている」と解釈できる
標準偏差 = √分散
「分散をルートして、元の単位に戻す」
💡 分散と標準偏差の使い分け

分散:計算で使う(2乗されているので計算しやすい)
標準偏差:解釈で使う(元の単位なのでわかりやすい)

「標準偏差が8cm」と言われれば直感的にわかるが、
「分散が66.67cm²」と言われてもピンとこない。

📊 標準化(Standardization)

🎯 標準化とは

処理であり、値ではない。

データを「平均0、分散1」に変換する処理のこと。

具体例
データ: 160, 170, 180(平均=170, 標準偏差=8.16)

160 → (160 - 170) ÷ 8.16 = -1.22
170 → (170 - 170) ÷ 8.16 = 0
180 → (180 - 170) ÷ 8.16 = +1.22

変換後: [-1.22, 0, +1.22](平均0、分散1になっている)
標準化後の値 = (元の値 − 平均) ÷ 標準偏差
「平均からのズレを、標準偏差で割る」
❓ なぜ標準化するの?

スケールを揃えるため。

例えば身長(150〜190cm)と年収(300〜1000万円)を一緒に学習させると、
数値が大きい年収の方が影響力を持ってしまう。

標準化すれば両方とも「-2〜+2くらい」になり、公平に扱える。

👁️ 視覚的なイメージ
正規分布で見るイメージ 平均 (中心) -1σ +1σ 標準偏差の範囲 約68%のデータが入る -2σ +2σ 標準偏差(σ) 平均からの 散らばり幅 分散(σ²) 標準偏差の 2乗 ±1σに68%、±2σに95%、±3σに99.7%のデータが含まれる
図2: 正規分布での平均と標準偏差のイメージ(σ = 標準偏差)
🔄 標準化のビフォー・アフター
標準化:スケールを揃える 標準化前(バラバラ) 身長 160 170 180 cm 年収 300 600 1000 万円 標準化 標準化後(揃った!) 身長 -1.22 0 +1.22 年収 -1.07 0 +1.43 両方とも「-2〜+2くらい」の範囲に → 公平に比較・学習できる
図3: 標準化するとスケールが揃い、公平に扱える
🎯 G検定で押さえるべきポイント
用語 覚えること
平均 データの中心。全部足して個数で割る。
分散 散らばり具合。偏差の2乗の平均。単位が²になる。
標準偏差 分散のルート。元の単位に戻る。σで表す。
標準化 平均0、分散1に変換する処理。スケールを揃える。
正規分布 ±1σに68%、±2σに95%、±3σに99.7%のデータ。
✅ 覚え方のコツ

平均:真ん中
分散:バラバラ度(2乗してる)
標準偏差:バラバラ度(元の単位)= √分散
標準化:揃える処理(値じゃない!)

「分散」と「標準偏差」は両方とも散らばりを表すが、標準偏差の方が直感的にわかりやすい。