Ward法 vs K-Means法
2つのクラスタリング手法を具体データで比較する
📊 使うデータ:6人の身長と体重
6人のデータをグループ分けします。同じデータを使って、Ward法とK-Means法の手順の違いを見ていきます。
| 人 | 身長 (cm) | 体重 (kg) |
| A | 152 | 48 |
| B | 155 | 50 |
| C | 160 | 55 |
| D | 175 | 72 |
| E | 178 | 75 |
| F | 182 | 80 |
見た目でも「A,B,C は小柄」「D,E,F は大柄」の2グループに分かれそうです。この分類を2つの手法がどう行うかを比較します。
Ward法階層的クラスタリング
方針:全データがバラバラの状態から、最も似ている2つを1つずつくっつけていく(ボトムアップ)。合体基準は「クラスタ内の分散の増加が最も小さいペア」。
ステップごとの合体の流れ
デンドログラム(樹形図)
上の合体過程を1本の図にしたものがデンドログラムです。縦軸の高さは合体時の「距離(分散の増加量)」を表し、高い位置での合体ほど、異なるグループが無理やりくっついたことを意味します。
デンドログラムの読み方:赤い点線のように横に切る位置を変えると、クラスタ数が変わります。高い位置で切れば2クラスタ、低い位置で切れば3, 4…と細かく分かれます。つまりクラスタ数を後から自由に決められるのがWard法の利点です。
K-Means法非階層的クラスタリング
方針:最初に「K=2グループに分ける」と宣言してから、中心点を動かして調整する(トップダウン的)。
ステップごとの流れ
比較Ward法 vs K-Means法
アプローチの違い
🌳 Ward法 = 木を育てる
1つずつくっつけて下から木を育てていく。
ボトムアップ
バラバラ → だんだん大きなグループに
過程がすべて記録されるので、後から「何クラスタがいいか」をデンドログラムを見て決められる。
🚩 K-Means法 = 旗を立てて集合
先に旗(中心)を立てて「集まれ!」と言う。
反復調整
中心を置く → 割当 → 中心を修正 → 繰り返し
最初にK(旗の数)を決めないと始められない。ただし処理は高速。
一覧比較表
|
Ward法(階層的) |
K-Means法(非階層的) |
| 種類 |
階層的クラスタリング |
非階層的クラスタリング |
| クラスタ数 |
後から決められる |
事前にKを指定する |
| 方向 |
ボトムアップ(くっつけていく) |
反復調整(割当⇔中心移動) |
| 結果の見方 |
デンドログラムで全過程が見える |
最終的な分割結果のみ |
| 計算速度 |
データが多いと遅い |
高速(大規模データ向き) |
| 結果の再現性 |
毎回同じ結果 |
初期値で結果が変わりうる |
| 合体基準 |
分散の増加が最小のペア |
中心点との距離 |
| 分類 |
教師なし学習 |
教師なし学習 |
G検定での出題ポイント
以下の3点が特に問われやすいです。
| Ward法 |
階層的クラスタリングの代表。デンドログラムでクラスタ数を後から決められる |
| K-Means法 |
クラスタ数Kを事前に決める必要がある。初期値でブレる。高速 |
| 共通点 |
どちらも教師なし学習のクラスタリング手法 |