Ward法 vs K-Means法

2つのクラスタリング手法を具体データで比較する

📊 使うデータ:6人の身長と体重

6人のデータをグループ分けします。同じデータを使って、Ward法とK-Means法の手順の違いを見ていきます。

身長 (cm) → 体重 (kg) → 150 160 170 180 190 45 55 65 75 85 A B C D E F 小柄グループ? 大柄グループ?
身長 (cm)体重 (kg)
A15248
B15550
C16055
D17572
E17875
F18280

見た目でも「A,B,C は小柄」「D,E,F は大柄」の2グループに分かれそうです。この分類を2つの手法がどう行うかを比較します。

Ward法階層的クラスタリング

方針:全データがバラバラの状態から、最も似ている2つを1つずつくっつけていく(ボトムアップ)。合体基準は「クラスタ内の分散の増加が最も小さいペア」。

ステップごとの合体の流れ

Step 1:全員バラバラ(6クラスタ) A B C D E F → 全ペアの距離を計算。A-B が最も近い Step 2:A+B を合体(5クラスタ) A B C D E F → 次に近いペアを探す。D-E が近い Step 3:D+E を合体(4クラスタ) A B C D E F → D,E クラスタに F が近い Step 4:{D,E}+F を合体(3クラスタ) A B C D E F → C は {A,B} に近いので… Step 5:{A,B}+C を合体 → 2クラスタ完成! A B C D E F ✓ 2つのグループに分類完了

デンドログラム(樹形図)

上の合体過程を1本の図にしたものがデンドログラムです。縦軸の高さは合体時の「距離(分散の増加量)」を表し、高い位置での合体ほど、異なるグループが無理やりくっついたことを意味します。

距離(分散の増加量)→ A B C D E F ✂️ ここで切る → 2クラスタ
デンドログラムの読み方:赤い点線のように横に切る位置を変えると、クラスタ数が変わります。高い位置で切れば2クラスタ、低い位置で切れば3, 4…と細かく分かれます。つまりクラスタ数を後から自由に決められるのがWard法の利点です。

K-Means法非階層的クラスタリング

方針:最初に「K=2グループに分ける」と宣言してから、中心点を動かして調整する(トップダウン的)。

ステップごとの流れ

Step 1:中心点をランダムに2つ配置 A B C D E F 中心① 中心② → ランダムな位置に中心を置く(この時点では適当) Step 2:各データを近い中心に割り当て A B C D E F → 各データは近い方の★に所属。A,B,C → ★①、D,E,F → ★② Step 3:各グループの重心に中心を移動 A B C D E F 新中心① 新中心② → ★がグループの真ん中(重心)に移動した Step 4:再割り当て → 変化なし → 収束! A B C D E F → 割り当てが変わらなくなった = 完成! A B C D E F K-Means のアルゴリズムまとめ K個の中心を ランダム配置 各データを 近い中心に割当 中心を 重心に移動 変化なし? → 完了! 変化あり → 繰り返す

比較Ward法 vs K-Means法

アプローチの違い

🌳 Ward法 = 木を育てる
1つずつくっつけて下から木を育てていく。

ボトムアップ
バラバラ → だんだん大きなグループに

過程がすべて記録されるので、後から「何クラスタがいいか」をデンドログラムを見て決められる。
🚩 K-Means法 = 旗を立てて集合
先に旗(中心)を立てて「集まれ!」と言う。

反復調整
中心を置く → 割当 → 中心を修正 → 繰り返し

最初にK(旗の数)を決めないと始められない。ただし処理は高速。

一覧比較表

Ward法(階層的) K-Means法(非階層的)
種類 階層的クラスタリング 非階層的クラスタリング
クラスタ数 後から決められる 事前にKを指定する
方向 ボトムアップ(くっつけていく) 反復調整(割当⇔中心移動)
結果の見方 デンドログラムで全過程が見える 最終的な分割結果のみ
計算速度 データが多いと遅い 高速(大規模データ向き)
結果の再現性 毎回同じ結果 初期値で結果が変わりうる
合体基準 分散の増加が最小のペア 中心点との距離
分類 教師なし学習 教師なし学習

G検定での出題ポイント

以下の3点が特に問われやすいです。

Ward法 階層的クラスタリングの代表。デンドログラムでクラスタ数を後から決められる
K-Means法 クラスタ数Kを事前に決める必要がある。初期値でブレる。高速
共通点 どちらも教師なし学習のクラスタリング手法