教師なし学習って、正解がないのにどうやって学習するんですか?
正解ラベルなしのデータから、隠れたパターンや構造を発見する手法だよ。正解を教えなくても、データの中の規則性やグループを自動で見つけてくれるんだ。
| タスク | 説明 | 例 |
|---|---|---|
| クラスタリング | 似たデータをグループ化 | 顧客セグメンテーション、文書分類 |
| 次元削減 | データの特徴量を圧縮 | 可視化、ノイズ除去 |
| 異常検知 | 通常と異なるデータを検出 | 不正検知、故障予測 |
| アルゴリズム | タスク | 特徴 |
|---|---|---|
| k-means | クラスタリング | k個のクラスタに分割、シンプル |
| 階層的クラスタリング | クラスタリング | 樹形図(デンドログラム)で可視化 |
| 主成分分析(PCA) | 次元削減 | 分散が大きい方向に射影 |
| t-SNE | 次元削減 | 高次元データの可視化に強い |
| MDS(多次元尺度構成法) | 次元削減 | データ間の距離関係を保って低次元に配置 |
K-Meansはどうやってデータをグループ分けするんですか?
データをK個のグループ(クラスタ)に自動で分けるアルゴリズムだよ。中心点を置いて、データを近い中心に割り当て、中心を更新する、を繰り返すんだ。
K-Meansとは違うクラスタリングもあるんですか?
似たデータから順に統合していき、木構造(デンドログラム=樹形図)を作るクラスタリング手法だよ。K-Meansと違い、クラスタ数を事前に決めなくてよいのが特徴だね。
| 方法 | 説明 |
|---|---|
| 最短距離法(単連結法) | 最も近い点同士の距離 |
| 最長距離法(完全連結法) | 最も遠い点同士の距離 |
| 群平均法 | 全点間の平均距離 |
| ウォード法 | 統合時の分散増加が最小になるように統合。最もよく使われる |
クラスタ数を事前に指定が必要
結果はクラスタ割り当てのみ
比較的速い
初期値の影響あり
Kを変えて再実行が必要
クラスタ数を後から決められる
デンドログラムで構造がわかる
計算コスト大
初期値の影響なし
切る位置を変えるだけ
主成分分析(PCA)って何をするんですか?
たくさんの特徴量(変数)を、少ない数に圧縮(次元削減)する手法だよ。データのばらつき(分散)が一番大きい方向を見つけて、重要な情報をなるべく失わずに圧縮するんだ。
データのばらつき(分散)が一番大きい方向 → 第1主成分
第1主成分と直交する方向で次にばらつきが大きい方向 → 第2主成分
重要な方向から順に取り出し、情報をなるべく失わずに次元を減らす。
各主成分がデータ全体の何%を説明しているかの指標。データの可視化(高次元→2〜3次元にして図にする)にも使われる。
| K-Means | 主成分分析(PCA) | |
|---|---|---|
| 分類 | クラスタリング | 次元削減 |
| 目的 | データをグループに分ける | 特徴量を少なく圧縮する |
| 人が決めるもの | クラスタ数K | 残す主成分の数 |
| 出力 | 各データのグループラベル | 圧縮された新しい特徴量 |
MDSって何ですか?PCAとはどう違うんですか?
MDS(Multidimensional Scaling)は、データ間の「距離」や「類似度」の関係をできるだけ保ったまま、低次元の空間に配置する手法だよ。PCAは「分散を最大化」するのに対して、MDSは「元の距離関係を再現する」ことが目的なんだ。
PCA:分散が大きい方向に射影。線形変換。全体の構造を保つ
t-SNE:近いデータの関係を重視。非線形。局所構造の可視化に強い
MDS:データ間の距離関係を再現。距離行列から直接使える
| PCA | t-SNE | MDS | |
|---|---|---|---|
| 目的 | 分散を最大化して次元削減 | 高次元の可視化 | 距離関係を保って次元削減 |
| 変換 | 線形 | 非線形 | 非線形も可 |
| 入力 | データ(特徴量) | データ(特徴量) | 距離行列でもOK |
| 重視する情報 | 全体の分散 | 局所的な近さ | ペア間の距離 |
| 用途 | 前処理・次元圧縮 | クラスタの可視化 | 類似度データの可視化 |
教師あり学習と教師なし学習の中間みたいなものはあるんですか?
少量のラベル付きデータと、大量のラベルなしデータを組み合わせて学習する手法があるよ。ラベル付けは人手とコストがかかるから、少ないラベルで高精度を実現できるのが大きなメリットだね。
背景:ラベル付けは高コスト(人手・時間がかかる)
メリット:少ないラベルで高精度を実現
用途:医療画像診断、自然言語処理など
| 手法 | 説明 |
|---|---|
| 自己学習(Self-Training) | ラベルなしデータに予測ラベルを付けて再学習 |
| 共学習(Co-Training) | 異なる特徴量で学習した2つのモデルが互いにラベルを付与 |
| グラフベース手法 | データ間の類似度グラフを利用 |
強化学習は教師あり学習とはどう違うんですか?
教師あり学習は「正解を教えてもらう」のに対して、強化学習はエージェントが環境と相互作用しながら、報酬を最大化する行動を試行錯誤で学習する手法だよ。ゲームAIやロボット制御で使われているんだ。
| 要素 | 説明 |
|---|---|
| エージェント(Agent) | 行動を決定する主体 |
| 環境(Environment) | エージェントが相互作用する対象 |
| 状態(State) | 環境の現在の状況 |
| 行動(Action) | エージェントが取る選択肢 |
| 報酬(Reward) | 行動の良し悪しを示すフィードバック |
| 方策(Policy) | 状態から行動を決める戦略 |
| アルゴリズム | 特徴 |
|---|---|
| Q学習 | 行動価値関数を学習、オフポリシー型 |
| SARSA | オンポリシー型のQ学習 |
| DQN(Deep Q-Network) | Q学習にディープラーニングを組み合わせ |
| 方策勾配法 | 方策を直接最適化 |
・ゲームAI(囲碁のAlphaGo、Atariゲーム)
・ロボット制御
・自動運転
・レコメンデーション