データの収集・加工・利用

学習データの質・バイアス・前処理・アノテーション
このページで学ぶこと

AIの性能はデータの質と量で決まります。どんなデータをどう集め、どう整え、どんな偏り(バイアス)に注意するかをまとめています。

学習データの量と質
AIにはたくさんデータがあればいいんでしょ?
量も大事ですが、がもっと大事です。ゴミデータをいくら大量に入れても、ゴミみたいな結果しか出ません。これを「Garbage In, Garbage Out(GIGO)」と言います。データの量・質・網羅性の3つがそろって初めて良いモデルが作れます。
十分なデータ数 少なすぎると 過学習のリスク バーニーおじさんの ルール:パラメータ×10倍 正確なラベル ノイズが少ない GIGO:ゴミを入れれば ゴミが出る 網羅性 偏りのない分布 現実世界を反映 特定のパターンに 偏ると汎化できない 良い学習データの3条件
データの網羅性とは

データが現実世界の多様な状況をまんべんなくカバーしていることです。例えば自動運転のAIを作るなら、晴れの日だけでなく雨・夜・雪など多様な条件のデータが必要です。特定のパターンに偏ると、見たことのない状況に対応できなくなります。

構造化データと非構造化データ
構造化データと非構造化データって何が違うの?
構造化データは行と列で整理された表形式のデータです。ExcelやDBに入っているようなデータですね。非構造化データは画像・音声・テキストなど形式が決まっていないデータです。AIの発展でこの非構造化データも扱えるようになりました。
構造化データ
  • 行・列の表形式で整理されている
  • 例:売上表、顧客DB、CSV
  • 従来の機械学習で扱いやすい
  • 機械判読しやすい
非構造化データ
  • 形式が決まっていない
  • 例:画像、音声、動画、テキスト
  • ディープラーニングが得意
  • 世の中のデータの約80%を占める
オープンデータ
オープンデータって何?
誰でも自由に使える形で公開されたデータのことです。政府や自治体が公開する統計データ、気象データ、交通データなどが代表的です。AI開発のデータ不足を補ったり、研究に活用されたりしています。
オープンデータの条件
機械判読とは

コンピュータが自動的にデータを読み取り・処理できることです。紙やPDFのスキャン画像は人間には読めてもコンピュータには処理しにくい(=機械判読が困難)。CSV、JSON、APIなどの形式が機械判読に適しています。

データバイアス
データバイアスって何?
学習データに含まれる偏り(バイアス)のことです。データが現実を正しく反映していないと、AIの判断にも偏りが出ます。例えば、採用AIの学習データに男性の合格者ばかりが含まれていたら、AIは女性を不利に扱ってしまうかもしれません。
バイアスの種類意味具体例
サンプリングバイアス データの収集方法に偏りがあり、母集団を正しく反映していない インターネット調査→ネットを使わない高齢者の意見が反映されない
アルゴリズムバイアス アルゴリズムの設計や学習データに起因するAIの判断の偏り 顔認識AIが特定の人種で精度が低い
ラベルバイアス アノテーション担当者の主観や偏見がラベルに反映される 「美しい」の基準が特定の文化に偏る
確認バイアス 自分の仮説に合うデータばかり集めてしまう傾向 都合の良いデータだけで検証してしまう
センシティブ属性(要配慮個人情報)

人種、性別、年齢、宗教、障害、病歴など、差別や不利益につながる可能性がある属性をセンシティブ属性と言います。AIの学習データにこれらの属性が含まれると、AIが差別的な判断をするリスクがあります。データの取り扱いに特別な配慮が必要です。

サンプリング手法とデータバランス調整
サンプリングバイアスを防ぐにはどうするの?
データの集め方に工夫が必要です。特に層別抽出法(層化サンプリング)が重要です。また、集めたデータのクラス比が偏っている場合は、アップサンプリングやダウンサンプリングで調整します。
層別抽出法(層化サンプリング)

母集団をあらかじめ属性(性別・年代・地域等)でグループ(層)に分けてから、各層から比率に応じてサンプルを抽出する方法です。これにより、特定の属性が偏ることを防げます。

層別抽出法(層化サンプリング)のイメージ 母集団 20代 (30%) 40代 (50%) 60代 (20%) 各層から 比率に応じて サンプル 20代 (30%) 40代 (50%) 60代 (20%) → 母集団の比率が保たれる! 単純ランダム抽出 比率を考慮しないので 特定の層が多すぎたり 少なすぎたりする → サンプリングバイアス
アップサンプリングとダウンサンプリング
集めたデータのクラスの数が偏ってる場合はどうするの?
例えば不良品検出で「正常品99%・不良品1%」のようにクラスが偏っている場合(不均衡データ)、そのまま学習すると「全部正常」と予測してもAccuracy 99%になってしまいます。そこでアップサンプリングダウンサンプリングでバランスを調整します。
アップサンプリング(オーバーサンプリング)
  • 少数クラスのデータを増やす
  • データをコピー・合成して水増し
  • 代表手法:SMOTE(近傍のデータ間を補間して合成)
  • データ量が増える→情報を失わない
ダウンサンプリング(アンダーサンプリング)
  • 多数クラスのデータを減らす
  • 多数クラスからランダムに間引く
  • シンプルだが情報が失われるリスク
  • データ量が十分に多い場合に有効
アノテーション
アノテーションって何?
学習データに正解ラベル(タグ)を付ける作業です。教師あり学習ではこの正解ラベルが必須ですが、大量のデータに1つずつラベルを付けるのは非常に手間がかかります。AIプロジェクトで最もコストと時間がかかる工程の一つです。
アノテーションの種類
アノテーションの課題
外れ値・異常値と対数変換
外れ値と異常値って同じもの?
似ていますが意味が少し違います。外れ値は「他のデータから極端に離れた値」で、統計的な概念です。異常値は「そのデータが入力ミスや機器の故障など、本来あり得ない原因で発生した値」です。外れ値の中には正当なデータ(本当に極端な値)も含まれるので、むやみに除去するのではなく原因を調べることが重要です。
用語意味対応
外れ値 他のデータから極端に離れた値 原因を調査してから除去・補正を判断。正当なデータの場合は残す
異常値 入力ミスや機器故障などで発生した不正な値 除去または正しい値に修正する
対数変換
対数変換って何のためにやるの?
データの分布が右に長く裾を引くような偏った形(右裾が長い分布)のとき、対数変換をすると分布が左右対称に近い形になります。これにより外れ値の影響を抑え、モデルが学習しやすくなります。年収や不動産価格など、極端に大きな値を含むデータでよく使います。
対数変換のポイント
バイアスの全体像
AIにおけるバイアスの発生ポイント データ収集 サンプリング バイアス 偏った集め方 アノテーション ラベル バイアス 担当者の主観 学習・モデル アルゴリズム バイアス 偏った判断を学習 AIの判断 差別的・不公平 な結果 センシティブ属性に注意 人種・性別・年齢・宗教・障害・病歴 → 差別につながるリスク データの取り扱いに特別な配慮が必要
G検定キーポイントまとめ