| 用語 | 何を表す? | 計算式 | 一言で |
|---|---|---|---|
| 平均 | データの中心 | 全部足して ÷ 個数 | 真ん中はどこ? |
| 分散 | 散らばり具合 | (各データ−平均)² の平均 | どれくらいバラバラ? |
| 標準偏差 | 散らばり具合 | √分散 | 分散を元の単位に戻す |
| 標準化 | データの変換処理 | (データ−平均) ÷ 標準偏差 | スケールを揃える |
データの「中心」を表す値。全部足して個数で割る。
170
データが平均からどれくらい散らばっているかを表す値。
各データと平均の差(偏差)を2乗して、その平均を取る。
66.67
プラスとマイナスのズレが打ち消し合わないようにするため。
例:-10 と +10 をそのまま足すと 0 になってしまう。
2乗すれば 100 + 100 = 200 となり、散らばりが消えない。
分散のルート(√)を取った値。
分散だと単位が「cm²」のようになってしまうので、ルートを取って元の単位(cm)に戻す。
8.16
分散:計算で使う(2乗されているので計算しやすい)
標準偏差:解釈で使う(元の単位なのでわかりやすい)
「標準偏差が8cm」と言われれば直感的にわかるが、
「分散が66.67cm²」と言われてもピンとこない。
処理であり、値ではない。
データを「平均0、分散1」に変換する処理のこと。
-1.220+1.22
スケールを揃えるため。
例えば身長(150〜190cm)と年収(300〜1000万円)を一緒に学習させると、
数値が大きい年収の方が影響力を持ってしまう。
標準化すれば両方とも「-2〜+2くらい」になり、公平に扱える。
| 用語 | 覚えること |
|---|---|
| 平均 | データの中心。全部足して個数で割る。 |
| 分散 | 散らばり具合。偏差の2乗の平均。単位が²になる。 |
| 標準偏差 | 分散のルート。元の単位に戻る。σで表す。 |
| 標準化 | 平均0、分散1に変換する処理。スケールを揃える。 |
| 正規分布 | ±1σに68%、±2σに95%、±3σに99.7%のデータ。 |
平均:真ん中
分散:バラバラ度(2乗してる)
標準偏差:バラバラ度(元の単位)= √分散
標準化:揃える処理(値じゃない!)
「分散」と「標準偏差」は両方とも散らばりを表すが、標準偏差の方が直感的にわかりやすい。