数学・統計学の基礎

公式と例題で学ぶ G検定の数理
このページの使い方

各項目ごとに「公式」→「例題」→「解答の流れ」をセットにしています。実際に数字を追いながら公式の使い方を確認してください。

1. 微分
微分って何をするものなの?
微分は「関数の変化の割合」を求める操作です。グラフでいうと、ある点での接線の傾きを求めることに相当します。機械学習では、損失関数を最小化するために勾配(微分値)を使って重みを更新します。
微分の基本公式

関数 f(x) の導関数 f'(x) を求めるルール:

関数 f(x)導関数 f'(x)ルール名
xnn xn−1べき乗の微分
a f(x)a f'(x)定数倍
f(x) + g(x)f'(x) + g'(x)和の微分
f(g(x))f'(g(x)) · g'(x)連鎖律(合成関数)
exex指数関数
log x1/x対数関数(自然対数)
例題:微分の計算

問題: f(x) = 3x3 + 2x2 − 5x + 1 を微分せよ

解答の流れ

① 各項をべき乗の公式で微分する:

② 答え:f'(x) = 9x2 + 4x − 5

例題:連鎖律

問題: f(x) = (2x + 3)4 を微分せよ

解答の流れ

① 外側の関数と内側の関数に分ける:

② 連鎖律 f'(g(x)) · g'(x) を適用:

③ 答え:f'(x) = 4(2x + 3)3 × 2 = 8(2x + 3)3

2. 偏微分
偏微分は普通の微分と何が違うの?
偏微分は多変数関数(変数が2つ以上ある関数)で使います。1つの変数だけに注目して微分し、他の変数は定数として扱うのがポイントです。ニューラルネットワークでは重みが複数あるので、各重みについて偏微分して勾配を求めます。
偏微分の公式

f(x, y) の偏微分:

記号 ∂(ラウンドディー)は偏微分を意味する。普通の微分の d との違いに注意。

例題:偏微分の計算

問題: f(x, y) = 3x2y + 2xy3 − 4x + y について、∂f/∂x と ∂f/∂y を求めよ

解答の流れ

① ∂f/∂x を求める(y は定数扱い):

∂f/∂x = 6xy + 2y3 − 4

② ∂f/∂y を求める(x は定数扱い):

∂f/∂y = 3x2 + 6xy2 + 1

3. 確率
確率の基本公式を教えて!
確率は「ある事象が起きる可能性の度合い」を 0〜1 の値で表すものです。基本公式を押さえておきましょう。
確率の基本公式
公式意味条件
P(A) = 該当する場合の数 / 全体の場合の数事象 A が起きる確率各事象が同様に確からしい場合
P(A∪B) = P(A) + P(B) − P(A∩B)A または B が起きる確率(加法定理)一般の場合
P(A∪B) = P(A) + P(B)加法定理(排反事象)A と B が同時に起きない場合
P(A∩B) = P(A) × P(B)A かつ B が起きる確率(乗法定理)A と B が独立の場合
P(A̅) = 1 − P(A)A が起きない確率(余事象)常に成立
例題:確率の基本

問題: 1個のサイコロを1回振るとき、「3以下の目が出る」確率と「偶数の目が出る」確率、そして「3以下 または 偶数」が出る確率を求めよ

解答の流れ

① 各事象を整理する:

② A∩B(3以下かつ偶数)を求める:

③ 加法定理で P(A∪B) を求める:

4. 条件付き確率
条件付き確率って何?
「ある事象 B が起きたという条件のもとで、事象 A が起きる確率」です。B が起きた世界に限定して A の確率を計算するイメージです。
条件付き確率の公式

P(A|B) = P(A∩B) / P(B)

読み方:「B が起きたとき A が起きる確率」= 「A かつ B の確率」÷「B の確率」

条件付き確率 P(A|B) のイメージ 全事象 Ω A B A∩B B の円の中だけに注目 → その中で A∩B の割合が P(A|B)
例題:条件付き確率

問題: あるクラス40人のうち、数学が好きな人は24人、英語が好きな人は20人、両方好きな人は12人いる。英語が好きな人の中で数学も好きな人の割合(確率)は?

解答の流れ

A = 数学が好き、B = 英語が好き とすると:

P(A|B) = P(A∩B) / P(B) = (3/10) / (1/2) = 3/10 × 2/1 = 3/5 = 0.6(60%)

英語好きの20人中、数学も好きなのは12人 → 12/20 = 3/5 と一致!

5. ベイズの定理
ベイズの定理ってG検定でよく出るって聞いたけど…
その通り!ベイズの定理は「結果(データ)を見てから、原因の確率を更新する」ための公式です。条件付き確率の「条件と結果」をひっくり返せるのが最大のポイントです。
ベイズの定理の公式

P(A|B) = P(B|A) × P(A) / P(B)

記号名前意味
P(A)事前確率データを見る前の A の確率(先入観)
P(A|B)事後確率データ B を見た後の A の確率(更新後)
P(B|A)尤度A が原因のとき B が観測される確率
P(B)周辺尤度B が観測される全体の確率
ベイズの定理のイメージ 事前確率 P(A) データを見る前の予想 尤度 P(B|A) データとの整合性 事後確率 P(A|B) データを見た後の判断 先入観をデータで更新する → ベイズ更新 事後確率 ∝ 尤度 × 事前確率
例題:ベイズの定理(病気の検査)

問題: ある病気の罹患率は 1%(0.01)。検査の精度は「病気の人が陽性になる確率(感度)= 90%」「健康な人が陽性になる確率(偽陽性率)= 5%」。検査で陽性が出た人が実際に病気である確率は?

解答の流れ

A = 病気である、B = 陽性 とすると:

① P(B) を全確率の公式で求める:

P(B) = P(B|A)×P(A) + P(B|A̅)×P(A̅) = 0.90×0.01 + 0.05×0.99 = 0.009 + 0.0495 = 0.0585

② ベイズの定理に代入:

P(A|B) = P(B|A)×P(A) / P(B) = 0.90×0.01 / 0.0585 = 0.009 / 0.0585 ≈ 0.154(約15.4%)

③ 解釈:陽性でも実際に病気である確率はわずか約15%!

罹患率が低い(1%)ため、偽陽性の人数が実際の病気の人数を大きく上回る。これがベイズの定理の直感に反するポイント。

6. 線形代数
線形代数ってベクトルと行列のこと?
はい!機械学習では、データやパラメータをベクトル行列で表現し、まとめて計算します。最低限、ベクトルの内積と行列の積を押さえておきましょう。
ベクトルと行列の基本
概念定義・公式
ベクトル 数値を一列に並べたもの a = (2, 3, 1)
内積 a · b = a₁b₁ + a₂b₂ + … + aₙbₙ (2,3)·(4,1) = 2×4 + 3×1 = 11
行列 数値を長方形に並べたもの(m行×n列) 2×2行列、3×3行列等
行列の積 左の行ベクトルと右の列ベクトルの内積 下記の例題参照
転置行列 行と列を入れ替えた行列(AT 行と列をひっくり返す
例題:ベクトルの内積

問題: a = (3, 2, 1) と b = (1, 4, 5) の内積を求めよ

解答の流れ

a · b = 3×1 + 2×4 + 1×5 = 3 + 8 + 5 = 16

対応する要素同士をかけて、全部足すだけ!

例題:行列の積

問題: 次の行列 A と B の積 AB を求めよ

A = [[1, 2], [3, 4]]  B = [[5, 6], [7, 8]]

解答の流れ

行列の積 = 「左の行」と「右の列」の内積

AB の (1,1) 成分:1×5 + 2×7 = 5 + 14 = 19

AB の (1,2) 成分:1×6 + 2×8 = 6 + 16 = 22

AB の (2,1) 成分:3×5 + 4×7 = 15 + 28 = 43

AB の (2,2) 成分:3×6 + 4×8 = 18 + 32 = 50

答え:AB = [[19, 22], [43, 50]]

行列の積の計算イメージ A 1 2 3 4 × B 5 6 7 8 = AB 19 22 43 50 A の m×k 行列と B の k×n 行列 → 結果は m×n 行列 注意:AB ≠ BA(行列の積は交換法則が成り立たない)
7. 期待値の計算
期待値って何?平均と同じ?
期待値は「確率で重み付けした平均」です。各値が起きる確率を考慮して、「長い目で見たときの平均的な値」を求めます。確率が全部同じなら、普通の平均と一致します。
期待値の公式

E[X] = Σ xᵢ × P(xᵢ) = x₁P(x₁) + x₂P(x₂) + … + xₙP(xₙ)

各値 × その確率 を全部足し合わせる

例題:サイコロの期待値

問題: 公正なサイコロ1回の出目の期待値を求めよ

解答の流れ

各目の確率はすべて 1/6 なので:

E[X] = 1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6)

= (1+2+3+4+5+6) / 6 = 21/6 = 3.5

サイコロを何回も振ると、出目の平均は3.5に近づく。

例題:確率が均等でない場合

問題: あるくじの賞金と確率が以下のとき、期待値を求めよ

賞金確率
10,000円0.01
1,000円0.05
100円0.20
0円(ハズレ)0.74
解答の流れ

E[X] = 10000×0.01 + 1000×0.05 + 100×0.20 + 0×0.74

= 100 + 50 + 20 + 0 = 170円

このくじ1回あたりの「平均的なリターン」は170円。くじの値段が170円より高いなら損!

8. 確率分布
確率分布って何種類もあるの?
G検定では特に正規分布ベルヌーイ分布・二項分布が重要です。それぞれの特徴を押さえましょう。
主な確率分布
分布使う場面パラメータ
ベルヌーイ分布成功/失敗の2択(1回)p(成功確率)コイン1回投げて表か裏か
二項分布成功/失敗の2択(n回)n(回数)、p(成功確率)コイン10回投げて表が出る回数
正規分布連続的なデータ全般μ(平均)、σ(標準偏差)身長、テストの点数
標準正規分布正規分布を標準化したものμ=0、σ=1偏差値の計算等
正規分布(ガウス分布) μ μ−σ μ+σ μ−2σ μ+2σ ≈ 68.3% μ±2σ の範囲 ≈ 95.4%
正規分布の重要な性質(覚えるべき数値)
例題:二項分布

問題: コインを5回投げて、ちょうど3回表が出る確率は?(表が出る確率 p = 0.5)

解答の流れ

二項分布の公式:P(X=k) = ₙCₖ × pk × (1−p)n−k

n=5, k=3, p=0.5 を代入:

P(X=3) = 10 × 0.125 × 0.25 = 0.3125(31.25%)

9. 基礎統計量
平均とか分散とか、いろいろあってごちゃごちゃする…
基礎統計量はデータの特徴を数値で要約するものです。「どの辺に集中しているか(代表値)」と「どれくらいばらついているか(散布度)」の2種類に分けると整理しやすいです。
基礎統計量の一覧
分類統計量公式・定義
代表値(中心の位置)平均値x̄ = (x₁ + x₂ + … + xₙ) / n
中央値(メジアン)データを昇順に並べたときの真ん中の値
最頻値(モード)最も頻繁に出現する値
散布度(ばらつき)分散σ² = Σ(xᵢ − x̄)² / n
標準偏差σ = √分散(分散の平方根)
標準誤差SE = σ / √n(標本平均のばらつき)
例題:平均・分散・標準偏差を求める

問題: データ {4, 6, 8, 10, 12} の平均値、分散、標準偏差を求めよ

解答の流れ

① 平均値を求める:

x̄ = (4 + 6 + 8 + 10 + 12) / 5 = 40 / 5 = 8

② 各データと平均の差(偏差)を求める:

xᵢxᵢ − x̄(xᵢ − x̄)²
44 − 8 = −416
66 − 8 = −24
88 − 8 = 00
1010 − 8 = 24
1212 − 8 = 416

③ 分散を求める:

σ² = (16 + 4 + 0 + 4 + 16) / 5 = 40 / 5 = 8

④ 標準偏差を求める:

σ = √8 ≈ 2.83

例題:中央値・最頻値

問題: データ {3, 5, 5, 7, 8, 8, 8, 10, 12} の中央値と最頻値を求めよ

解答の流れ

中央値:データは9個(奇数)→ 真ん中は5番目 → 8

(昇順: 3, 5, 5, 7, 8, 8, 8, 10, 12)

最頻値:最も多く出現する値 = 8(3回出現)

平均値

全データの合計÷個数。外れ値の影響を受けやすい

中央値

真ん中の値。外れ値の影響を受けにくい。年収の代表値などに適する。

このページのポイント