データの収集・加工・利用

このページで学ぶこと

AIの性能はデータの質と量で決まります。どんなデータをどう集め、どう整え、どんな偏り（バイアス）に注意するかをまとめています。

学習データの量と質

AIにはたくさんデータがあればいいんでしょ？

量も大事ですが、質がもっと大事です。ゴミデータをいくら大量に入れても、ゴミみたいな結果しか出ません。これを「Garbage In, Garbage Out（GIGO）」と言います。データの量・質・網羅性の3つがそろって初めて良いモデルが作れます。

データの網羅性とは

データが現実世界の多様な状況をまんべんなくカバーしていることです。例えば自動運転のAIを作るなら、晴れの日だけでなく雨・夜・雪など多様な条件のデータが必要です。特定のパターンに偏ると、見たことのない状況に対応できなくなります。

構造化データと非構造化データ

構造化データと非構造化データって何が違うの？

構造化データは行と列で整理された表形式のデータです。ExcelやDBに入っているようなデータですね。非構造化データは画像・音声・テキストなど形式が決まっていないデータです。AIの発展でこの非構造化データも扱えるようになりました。

構造化データ

行・列の表形式で整理されている
例：売上表、顧客DB、CSV
従来の機械学習で扱いやすい
機械判読しやすい

非構造化データ

形式が決まっていない
例：画像、音声、動画、テキスト
ディープラーニングが得意
世の中のデータの約80%を占める

オープンデータ

オープンデータって何？

誰でも自由に使える形で公開されたデータのことです。政府や自治体が公開する統計データ、気象データ、交通データなどが代表的です。AI開発のデータ不足を補ったり、研究に活用されたりしています。

オープンデータの条件
機械判読可能：コンピュータが自動で読み取れる形式（CSV、JSON、XML等）。PDFや画像ではなくデータ形式で提供
二次利用可能：営利・非営利を問わず再利用が許可されている
無償で利用可能：原則として無料で使える

機械判読とは

コンピュータが自動的にデータを読み取り・処理できることです。紙やPDFのスキャン画像は人間には読めてもコンピュータには処理しにくい（＝機械判読が困難）。CSV、JSON、APIなどの形式が機械判読に適しています。

データバイアス

データバイアスって何？

学習データに含まれる偏り（バイアス）のことです。データが現実を正しく反映していないと、AIの判断にも偏りが出ます。例えば、採用AIの学習データに男性の合格者ばかりが含まれていたら、AIは女性を不利に扱ってしまうかもしれません。

バイアスの種類	意味	具体例
サンプリングバイアス	データの収集方法に偏りがあり、母集団を正しく反映していない	インターネット調査→ネットを使わない高齢者の意見が反映されない
アルゴリズムバイアス	アルゴリズムの設計や学習データに起因するAIの判断の偏り	顔認識AIが特定の人種で精度が低い
ラベルバイアス	アノテーション担当者の主観や偏見がラベルに反映される	「美しい」の基準が特定の文化に偏る
確認バイアス	自分の仮説に合うデータばかり集めてしまう傾向	都合の良いデータだけで検証してしまう

センシティブ属性（要配慮個人情報）

人種、性別、年齢、宗教、障害、病歴など、差別や不利益につながる可能性がある属性をセンシティブ属性と言います。AIの学習データにこれらの属性が含まれると、AIが差別的な判断をするリスクがあります。データの取り扱いに特別な配慮が必要です。

サンプリング手法とデータバランス調整

サンプリングバイアスを防ぐにはどうするの？

データの集め方に工夫が必要です。特に層別抽出法（層化サンプリング）が重要です。また、集めたデータのクラス比が偏っている場合は、アップサンプリングやダウンサンプリングで調整します。

層別抽出法（層化サンプリング）

母集団をあらかじめ属性（性別・年代・地域等）でグループ（層）に分けてから、各層から比率に応じてサンプルを抽出する方法です。これにより、特定の属性が偏ることを防げます。

アップサンプリングとダウンサンプリング

集めたデータのクラスの数が偏ってる場合はどうするの？

例えば不良品検出で「正常品99%・不良品1%」のようにクラスが偏っている場合（不均衡データ）、そのまま学習すると「全部正常」と予測してもAccuracy 99%になってしまいます。そこでアップサンプリングかダウンサンプリングでバランスを調整します。

アップサンプリング（オーバーサンプリング）

少数クラスのデータを増やす
データをコピー・合成して水増し
代表手法：SMOTE（近傍のデータ間を補間して合成）
データ量が増える→情報を失わない

ダウンサンプリング（アンダーサンプリング）

多数クラスのデータを減らす
多数クラスからランダムに間引く
シンプルだが情報が失われるリスク
データ量が十分に多い場合に有効

アノテーション

アノテーションって何？

学習データに正解ラベル（タグ）を付ける作業です。教師あり学習ではこの正解ラベルが必須ですが、大量のデータに1つずつラベルを付けるのは非常に手間がかかります。AIプロジェクトで最もコストと時間がかかる工程の一つです。

アノテーションの種類
画像分類：画像全体に「犬」「猫」などのラベルを付与
物体検出：画像中の物体をバウンディングボックスで囲んでラベル付け
セグメンテーション：画素単位でクラスを割り当て
テキスト：感情（ポジティブ/ネガティブ）、固有表現（人名・地名）等のタグ付け

アノテーションの課題
コスト：大量データへの手作業は膨大な人件費と時間がかかる
品質のばらつき：担当者によって判断基準が異なる→ラベルバイアス
対策：アノテーション基準の明確化、複数人でのクロスチェック、半自動化ツールの活用

外れ値・異常値と対数変換

外れ値と異常値って同じもの？

似ていますが意味が少し違います。外れ値は「他のデータから極端に離れた値」で、統計的な概念です。異常値は「そのデータが入力ミスや機器の故障など、本来あり得ない原因で発生した値」です。外れ値の中には正当なデータ（本当に極端な値）も含まれるので、むやみに除去するのではなく原因を調べることが重要です。

用語	意味	対応
外れ値	他のデータから極端に離れた値	原因を調査してから除去・補正を判断。正当なデータの場合は残す
異常値	入力ミスや機器故障などで発生した不正な値	除去または正しい値に修正する

対数変換

対数変換って何のためにやるの？

データの分布が右に長く裾を引くような偏った形（右裾が長い分布）のとき、対数変換をすると分布が左右対称に近い形になります。これにより外れ値の影響を抑え、モデルが学習しやすくなります。年収や不動産価格など、極端に大きな値を含むデータでよく使います。

対数変換のポイント
目的：偏った分布を正規分布に近づけ、外れ値の影響を緩和する
適用例：年収データ（数百万〜数億まで幅が大きい）→ log変換で差を圧縮
注意：0以下の値にはそのまま適用できない（log(0)は未定義）

バイアスの全体像

G検定キーポイントまとめ

良い学習データには量・質・網羅性の3つが必要。GIGO（ゴミを入れればゴミが出る）
構造化データは表形式（CSV・DB）、非構造化データは画像・音声・テキスト
オープンデータは機械判読可能・二次利用可能・無償で公開されたデータ
機械判読＝コンピュータが自動で読み取れる形式（CSV、JSON等）
サンプリングバイアスはデータの集め方の偏り。層別抽出法（層化サンプリング）で母集団の比率を保つ
アップサンプリングは少数クラスを増やす、ダウンサンプリングは多数クラスを減らす
アノテーションはデータに正解ラベルを付ける作業。コストが高く品質管理が重要
アルゴリズムバイアスはAIの判断に含まれる偏り。センシティブ属性（人種・性別等）の扱いに注意
外れ値は極端に離れた値（原因調査が先）、異常値は不正な値（除去・修正）
対数変換は偏った分布を正規分布に近づけ、外れ値の影響を緩和する前処理