数学・統計学の基礎

このページの使い方

各項目ごとに「公式」→「例題」→「解答の流れ」をセットにしています。実際に数字を追いながら公式の使い方を確認してください。

1. 微分

微分って何をするものなの？

微分は「関数の変化の割合」を求める操作です。グラフでいうと、ある点での接線の傾きを求めることに相当します。機械学習では、損失関数を最小化するために勾配（微分値）を使って重みを更新します。

微分の基本公式

関数 f(x) の導関数 f'(x) を求めるルール：

関数 f(x)	導関数 f'(x)	ルール名
xⁿ	n xⁿ⁻¹	べき乗の微分
a f(x)	a f'(x)	定数倍
f(x) + g(x)	f'(x) + g'(x)	和の微分
f(g(x))	f'(g(x)) · g'(x)	連鎖律（合成関数）
e^x	e^x	指数関数
log x	1/x	対数関数（自然対数）

例題：微分の計算

問題： f(x) = 3x³ + 2x² − 5x + 1 を微分せよ

解答の流れ

① 各項をべき乗の公式で微分する：

3x³ → 3 × 3x² = 9x²
2x² → 2 × 2x¹ = 4x
−5x → −5 × 1x⁰ = −5
1（定数）→ 0

② 答え：f'(x) = 9x² + 4x − 5

例題：連鎖律

問題： f(x) = (2x + 3)⁴ を微分せよ

解答の流れ

① 外側の関数と内側の関数に分ける：

外側：u⁴（u = 2x + 3 とおく）
内側：u = 2x + 3

② 連鎖律 f'(g(x)) · g'(x) を適用：

外側の微分：4u³ = 4(2x + 3)³
内側の微分：2

③ 答え：f'(x) = 4(2x + 3)³ × 2 = 8(2x + 3)³

2. 偏微分

偏微分は普通の微分と何が違うの？

偏微分は多変数関数（変数が2つ以上ある関数）で使います。1つの変数だけに注目して微分し、他の変数は定数として扱うのがポイントです。ニューラルネットワークでは重みが複数あるので、各重みについて偏微分して勾配を求めます。

偏微分の公式

f(x, y) の偏微分：

∂f/∂x — x で偏微分（y は定数扱い）
∂f/∂y — y で偏微分（x は定数扱い）

記号 ∂（ラウンドディー）は偏微分を意味する。普通の微分の d との違いに注意。

例題：偏微分の計算

問題： f(x, y) = 3x²y + 2xy³ − 4x + y について、∂f/∂x と ∂f/∂y を求めよ

解答の流れ

① ∂f/∂x を求める（y は定数扱い）：

3x²y → 6xy（y は定数、x² を微分）
2xy³ → 2y³（y³ は定数、x を微分）
−4x → −4
y → 0（x を含まない定数）

∂f/∂x = 6xy + 2y³ − 4

② ∂f/∂y を求める（x は定数扱い）：

3x²y → 3x²（x² は定数、y を微分）
2xy³ → 6xy²（x は定数、y³ を微分）
−4x → 0（y を含まない定数）
y → 1

∂f/∂y = 3x² + 6xy² + 1

3. 確率

確率の基本公式を教えて！

確率は「ある事象が起きる可能性の度合い」を 0〜1 の値で表すものです。基本公式を押さえておきましょう。

確率の基本公式

        公式意味条件

        P(A) = 該当する場合の数 / 全体の場合の数事象 A が起きる確率各事象が同様に確からしい場合
P(A∪B) = P(A) + P(B) − P(A∩B)A または B が起きる確率（加法定理）一般の場合
P(A∪B) = P(A) + P(B)加法定理（排反事象）A と B が同時に起きない場合
P(A∩B) = P(A) × P(B)A かつ B が起きる確率（乗法定理）A と B が独立の場合
P(A̅) = 1 − P(A)A が起きない確率（余事象）常に成立

公式	意味	条件
P(A) = 該当する場合の数 / 全体の場合の数	事象 A が起きる確率	各事象が同様に確からしい場合
P(A∪B) = P(A) + P(B) − P(A∩B)	A または B が起きる確率（加法定理）	一般の場合
P(A∪B) = P(A) + P(B)	加法定理（排反事象）	A と B が同時に起きない場合
P(A∩B) = P(A) × P(B)	A かつ B が起きる確率（乗法定理）	A と B が独立の場合
P(A̅) = 1 − P(A)	A が起きない確率（余事象）	常に成立

例題：確率の基本

問題： 1個のサイコロを1回振るとき、「3以下の目が出る」確率と「偶数の目が出る」確率、そして「3以下または偶数」が出る確率を求めよ

解答の流れ

① 各事象を整理する：

全体：{1, 2, 3, 4, 5, 6} → 6通り
A（3以下）：{1, 2, 3} → P(A) = 3/6 = 1/2
B（偶数）：{2, 4, 6} → P(B) = 3/6 = 1/2

② A∩B（3以下かつ偶数）を求める：

A∩B = {2} → P(A∩B) = 1/6

③ 加法定理で P(A∪B) を求める：

P(A∪B) = P(A) + P(B) − P(A∩B) = 1/2 + 1/2 − 1/6 = 5/6

4. 条件付き確率

条件付き確率って何？

「ある事象 B が起きたという条件のもとで、事象 A が起きる確率」です。B が起きた世界に限定して A の確率を計算するイメージです。

条件付き確率の公式

P(A|B) = P(A∩B) / P(B)

読み方：「B が起きたとき A が起きる確率」= 「A かつ B の確率」÷「B の確率」

例題：条件付き確率

問題： あるクラス40人のうち、数学が好きな人は24人、英語が好きな人は20人、両方好きな人は12人いる。英語が好きな人の中で数学も好きな人の割合（確率）は？

解答の流れ

A = 数学が好き、B = 英語が好きとすると：

P(B) = 20/40 = 1/2
P(A∩B) = 12/40 = 3/10

P(A|B) = P(A∩B) / P(B) = (3/10) / (1/2) = 3/10 × 2/1 = 3/5 = 0.6（60%）

英語好きの20人中、数学も好きなのは12人 → 12/20 = 3/5 と一致！

5. ベイズの定理

ベイズの定理ってG検定でよく出るって聞いたけど…

その通り！ベイズの定理は「結果（データ）を見てから、原因の確率を更新する」ための公式です。条件付き確率の「条件と結果」をひっくり返せるのが最大のポイントです。

ベイズの定理の公式

P(A|B) = P(B|A) × P(A) / P(B)

記号	名前	意味
P(A)	事前確率	データを見る前の A の確率（先入観）
P(A\|B)	事後確率	データ B を見た後の A の確率（更新後）
P(B\|A)	尤度	A が原因のとき B が観測される確率
P(B)	周辺尤度	B が観測される全体の確率

例題：ベイズの定理（病気の検査）

問題： ある病気の罹患率は 1%（0.01）。検査の精度は「病気の人が陽性になる確率（感度）= 90%」「健康な人が陽性になる確率（偽陽性率）= 5%」。検査で陽性が出た人が実際に病気である確率は？

解答の流れ

A = 病気である、B = 陽性とすると：

P(A) = 0.01（事前確率：罹患率1%）
P(A̅) = 0.99（健康である確率）
P(B|A) = 0.90（病気→陽性：感度90%）
P(B|A̅) = 0.05（健康→陽性：偽陽性率5%）

① P(B) を全確率の公式で求める：

P(B) = P(B|A)×P(A) + P(B|A̅)×P(A̅) = 0.90×0.01 + 0.05×0.99 = 0.009 + 0.0495 = 0.0585

② ベイズの定理に代入：

P(A|B) = P(B|A)×P(A) / P(B) = 0.90×0.01 / 0.0585 = 0.009 / 0.0585 ≈ 0.154（約15.4%）

③ 解釈：陽性でも実際に病気である確率はわずか約15%！

罹患率が低い（1%）ため、偽陽性の人数が実際の病気の人数を大きく上回る。これがベイズの定理の直感に反するポイント。

6. 線形代数

線形代数ってベクトルと行列のこと？

はい！機械学習では、データやパラメータをベクトルや行列で表現し、まとめて計算します。最低限、ベクトルの内積と行列の積を押さえておきましょう。

ベクトルと行列の基本

        概念定義・公式例

            ベクトル
            数値を一列に並べたもの
            a = (2, 3, 1)
          
            内積
            a · b = a₁b₁ + a₂b₂ + … + aₙbₙ
            (2,3)·(4,1) = 2×4 + 3×1 = 11
          
            行列
            数値を長方形に並べたもの（m行×n列）
            2×2行列、3×3行列等
          
            行列の積
            左の行ベクトルと右の列ベクトルの内積
            下記の例題参照
          
            転置行列
            行と列を入れ替えた行列（AT）
            行と列をひっくり返す

概念	定義・公式	例
ベクトル	数値を一列に並べたもの	a = (2, 3, 1)
内積	a · b = a₁b₁ + a₂b₂ + … + aₙbₙ	(2,3)·(4,1) = 2×4 + 3×1 = 11
行列	数値を長方形に並べたもの（m行×n列）	2×2行列、3×3行列等
行列の積	左の行ベクトルと右の列ベクトルの内積	下記の例題参照
転置行列	行と列を入れ替えた行列（A^T）	行と列をひっくり返す

例題：ベクトルの内積

問題： a = (3, 2, 1) と b = (1, 4, 5) の内積を求めよ

解答の流れ

a · b = 3×1 + 2×4 + 1×5 = 3 + 8 + 5 = 16

対応する要素同士をかけて、全部足すだけ！

例題：行列の積

問題： 次の行列 A と B の積 AB を求めよ

A = [[1, 2], [3, 4]]　　B = [[5, 6], [7, 8]]

解答の流れ

行列の積 = 「左の行」と「右の列」の内積

AB の (1,1) 成分：1×5 + 2×7 = 5 + 14 = 19

AB の (1,2) 成分：1×6 + 2×8 = 6 + 16 = 22

AB の (2,1) 成分：3×5 + 4×7 = 15 + 28 = 43

AB の (2,2) 成分：3×6 + 4×8 = 18 + 32 = 50

答え：AB = [[19, 22], [43, 50]]

7. 期待値の計算

期待値って何？平均と同じ？

期待値は「確率で重み付けした平均」です。各値が起きる確率を考慮して、「長い目で見たときの平均的な値」を求めます。確率が全部同じなら、普通の平均と一致します。

期待値の公式

E[X] = Σ xᵢ × P(xᵢ) = x₁P(x₁) + x₂P(x₂) + … + xₙP(xₙ)

各値 × その確率を全部足し合わせる

例題：サイコロの期待値

問題： 公正なサイコロ1回の出目の期待値を求めよ

解答の流れ

各目の確率はすべて 1/6 なので：

E[X] = 1×(1/6) + 2×(1/6) + 3×(1/6) + 4×(1/6) + 5×(1/6) + 6×(1/6)

= (1+2+3+4+5+6) / 6 = 21/6 = 3.5

サイコロを何回も振ると、出目の平均は3.5に近づく。

例題：確率が均等でない場合

問題： あるくじの賞金と確率が以下のとき、期待値を求めよ

賞金	確率
10,000円	0.01
1,000円	0.05
100円	0.20
0円（ハズレ）	0.74

解答の流れ

E[X] = 10000×0.01 + 1000×0.05 + 100×0.20 + 0×0.74

= 100 + 50 + 20 + 0 = 170円

このくじ1回あたりの「平均的なリターン」は170円。くじの値段が170円より高いなら損！

8. 確率分布

確率分布って何種類もあるの？

G検定では特に正規分布とベルヌーイ分布・二項分布が重要です。それぞれの特徴を押さえましょう。

主な確率分布

        分布使う場面パラメータ例

        ベルヌーイ分布成功/失敗の2択（1回）p（成功確率）コイン1回投げて表か裏か
二項分布成功/失敗の2択（n回）n（回数）、p（成功確率）コイン10回投げて表が出る回数
正規分布連続的なデータ全般μ（平均）、σ（標準偏差）身長、テストの点数
標準正規分布正規分布を標準化したものμ=0、σ=1偏差値の計算等

分布	使う場面	パラメータ	例
ベルヌーイ分布	成功/失敗の2択（1回）	p（成功確率）	コイン1回投げて表か裏か
二項分布	成功/失敗の2択（n回）	n（回数）、p（成功確率）	コイン10回投げて表が出る回数
正規分布	連続的なデータ全般	μ（平均）、σ（標準偏差）	身長、テストの点数
標準正規分布	正規分布を標準化したもの	μ=0、σ=1	偏差値の計算等

正規分布の重要な性質（覚えるべき数値）
μ ± 1σ の範囲にデータの約 68.3% が含まれる
μ ± 2σ の範囲にデータの約 95.4% が含まれる
μ ± 3σ の範囲にデータの約 99.7% が含まれる
平均 μ を中心に左右対称の釣鐘型

例題：二項分布

問題： コインを5回投げて、ちょうど3回表が出る確率は？（表が出る確率 p = 0.5）

解答の流れ

二項分布の公式：P(X=k) = ₙCₖ × p^k × (1−p)^n−k

n=5, k=3, p=0.5 を代入：

₅C₃ = 5! / (3! × 2!) = (5×4) / (2×1) = 10
p³ = 0.5³ = 0.125
(1−p)² = 0.5² = 0.25

P(X=3) = 10 × 0.125 × 0.25 = 0.3125（31.25%）

9. 基礎統計量

平均とか分散とか、いろいろあってごちゃごちゃする…

基礎統計量はデータの特徴を数値で要約するものです。「どの辺に集中しているか（代表値）」と「どれくらいばらついているか（散布度）」の2種類に分けると整理しやすいです。

基礎統計量の一覧

        分類統計量公式・定義

        代表値（中心の位置）平均値x̄ = (x₁ + x₂ + … + xₙ) / n
中央値（メジアン）データを昇順に並べたときの真ん中の値
最頻値（モード）最も頻繁に出現する値
散布度（ばらつき）分散σ² = Σ(xᵢ − x̄)² / n
標準偏差σ = √分散（分散の平方根）
標準誤差SE = σ / √n（標本平均のばらつき）

分類	統計量	公式・定義
代表値（中心の位置）	平均値	x̄ = (x₁ + x₂ + … + xₙ) / n
中央値（メジアン）	データを昇順に並べたときの真ん中の値
最頻値（モード）	最も頻繁に出現する値
散布度（ばらつき）	分散	σ² = Σ(xᵢ − x̄)² / n
標準偏差	σ = √分散（分散の平方根）
標準誤差	SE = σ / √n（標本平均のばらつき）

例題：平均・分散・標準偏差を求める

問題： データ {4, 6, 8, 10, 12} の平均値、分散、標準偏差を求めよ

解答の流れ

① 平均値を求める：

x̄ = (4 + 6 + 8 + 10 + 12) / 5 = 40 / 5 = 8

② 各データと平均の差（偏差）を求める：

xᵢ	xᵢ − x̄	(xᵢ − x̄)²
4	4 − 8 = −4	16
6	6 − 8 = −2	4
8	8 − 8 = 0	0
10	10 − 8 = 2	4
12	12 − 8 = 4	16

③ 分散を求める：

σ² = (16 + 4 + 0 + 4 + 16) / 5 = 40 / 5 = 8

④ 標準偏差を求める：

σ = √8 ≈ 2.83

例題：中央値・最頻値

問題： データ {3, 5, 5, 7, 8, 8, 8, 10, 12} の中央値と最頻値を求めよ

解答の流れ

中央値：データは9個（奇数）→ 真ん中は5番目 → 8

（昇順: 3, 5, 5, 7, 8, 8, 8, 10, 12）

最頻値：最も多く出現する値 = 8（3回出現）

平均値

全データの合計÷個数。外れ値の影響を受けやすい。

中央値

真ん中の値。外れ値の影響を受けにくい。年収の代表値などに適する。

このページのポイント

微分は変化の割合。べき乗の微分 xⁿ → nxⁿ⁻¹ と連鎖律が基本
偏微分は1つの変数だけ微分し、他は定数扱い。∂ は偏微分の記号
確率の基本は加法定理と乗法定理。余事象 P(A̅) = 1−P(A) も便利
条件付き確率 P(A|B) = P(A∩B)/P(B) ：B が起きた世界に限定して考える
ベイズの定理：事後確率 = 尤度×事前確率/周辺尤度。罹患率が低い検査の偽陽性問題が頻出
線形代数：内積は対応要素をかけて足す。行列の積は「行×列」の内積。AB≠BA
期待値 E[X] = Σxᵢ×P(xᵢ) ：確率で重み付けした平均
正規分布：μ±1σ≈68%、μ±2σ≈95%、μ±3σ≈99.7% を暗記
二項分布：P(X=k) = ₙCₖ × p^k × (1−p)^n−k
分散 = 偏差の2乗の平均、標準偏差 = √分散。中央値は外れ値に強い