音声認識・音声合成の基礎概念

1音色（Timbre）

同じ高さ・同じ大きさの音でも、「何が出した音か」を区別できる性質が音色です。ピアノの「ド」とバイオリンの「ド」は同じ音高でも全く違って聞こえますよね。その違いが音色です。

音色の正体＝倍音の構成

音は1つの周波数だけで鳴っているわけではなく、基本の周波数（基音）の上にたくさんの「倍音」が重なっています。この倍音の組み合わせ方が音色を決めます。

    音声処理での重要性：人の声も同じです。同じ「あ」でも人によって倍音の構成が違うため音色が異なります。音声認識では、この個人差（音色の違い）を超えて同じ音韻を認識する必要があります。
  

2スペクトル包絡（Spectral Envelope）

上の倍音のバーチャートで、各バーの頂点をなめらかに結んだ曲線がスペクトル包絡です。個々の倍音の細かいギザギザを無視して、音の「全体的な周波数特性の形」を捉えます。

    なぜ重要か：スペクトル包絡の形（特にピークの位置）が、声の「母音の種類」や「話者の個性」を決定します。包絡のピークが次のセクションで説明する「フォルマント」です。
  

3フォルマント周波数（Formant Frequency）

スペクトル包絡の中に現れるピーク（山）の周波数がフォルマントです。低い方から第1フォルマント（F1）、第2フォルマント（F2）、第3フォルマント（F3）…と呼びます。

    核心：母音の違いは、主にF1とF2の組み合わせで決まります。「あ」と「い」では声道の形が違うので、共鳴するピークの位置が変わります。
  

日本語の5母音のフォルマント（概算値）

母音	F1（Hz）概算	F2（Hz）概算	口の形
あ	~800	~1200	大きく開く
い	~300	~2200	横に引く、舌が前
う	~300	~1500	唇を丸める
え	~500	~1800	やや開く、舌が前
お	~500	~800	唇を丸め、舌が奥

    音声認識との関係：音声認識システムは、入力音声からフォルマントの位置を分析することで「どの母音が発音されたか」を判断します。F1とF2の散布図上で母音がきれいに分離することが、認識精度の鍵です。
  

4サンプリング定理（Nyquist–Shannon Theorem）

アナログの音声をデジタルに変換する際の基本原理です。元の信号に含まれる最大周波数の2倍以上のサンプリング周波数で記録すれば、元の信号を完全に復元できるというものです。

fs ≥ 2 × fmax

fs = サンプリング周波数、fmax = 信号に含まれる最大周波数

イメージ：波を点で記録する

具体例：なぜ音楽CDは44,100Hzなのか？

計算

人間の聴覚の上限 ≈ 20,000 Hz
サンプリング定理より: fs ≥ 2 × 20,000 = 40,000 Hz
余裕を持たせて → 44,100 Hz を採用

1秒間に44,100回データを記録すれば、人間に聞こえる全ての音を再現できる

用途別サンプリング周波数

用途	サンプリング周波数	記録できる最大周波数
電話音声	8,000 Hz	4,000 Hz（声を聞き取るには十分）
音声認識	16,000 Hz	8,000 Hz（音声の特徴を捉えるのに十分）
音楽CD	44,100 Hz	22,050 Hz（人間の可聴域をカバー）
ハイレゾ音源	96,000 Hz	48,000 Hz（可聴域を超えた情報も保持）

    エイリアシング：サンプリング周波数が不十分だと、本来存在しない偽の低い周波数が現れます。これをエイリアシングと呼び、音声が歪んで聞こえる原因になります。
  

5隠れマルコフモデル（HMM: Hidden Markov Model）

ディープラーニング以前の音声認識で中心的に使われていたモデルです。「直接は観測できない状態（隠れ状態）」が、観測可能な出力を生成するという確率モデルです。

まず「マルコフモデル」を理解する

    マルコフ性：「次の状態は、現在の状態だけで決まり、それ以前の履歴には依存しない」という性質です。
  

天気の例で考えます。「明日の天気は今日の天気だけで確率的に決まる」というモデルです。

「隠れ」マルコフモデルとは

通常のマルコフモデルでは状態（天気）が直接見えますが、隠れマルコフモデルでは状態が直接見えず、状態から生成される「観測」だけが見えるという設定です。

音声認識での使われ方

🎤 音声入力

→

音響特徴量
を抽出

→

HMMで
最尤の音韻列
を推定

→

📝 テキスト

HMMの要素	音声認識での意味
隠れ状態	発話された音韻の列（「あ」→「め」→…）。直接は見えない
観測（出力）	マイクで録音された音響特徴量（スペクトルなど）。これだけが見える
遷移確率	ある音韻の次にどの音韻が来やすいかの確率
出力確率	ある音韻のときにどんな音響特徴量が観測されやすいかの確率

    身近な例え：壁の向こうで誰かが話している場面を想像してください。あなたに聞こえるのは「壁越しの音」（＝観測）だけで、実際にどんな言葉を発しているか（＝隠れ状態）は直接見えません。HMMは、聞こえた音の特徴から「最もありそうな言葉の列」を確率的に推定するモデルです。
  

現在の位置づけ

HMMベース（従来）

音響モデル（HMM-GMM）＋言語モデル（n-gram）を組み合わせ。各モジュールを個別に設計・学習。2010年頃まで主流。

End-to-End DNN（現在主流）

音声波形を直接入力し、テキストを直接出力するニューラルネットワーク。Transformer等を使用。HMMは不要に。

📋 全体のまとめ

音声認識の全体像における各概念の位置づけ

G検定での出題ポイント

概念	押さえるべきポイント
音色	倍音の構成で決まる。同じ音高でも楽器や話者で異なる
スペクトル包絡	周波数成分の全体的な形。ピークの位置がフォルマント
フォルマント	母音の違いはF1とF2の組み合わせで決まる
サンプリング定理	fs ≥ 2 × fmax。CD = 44,100Hzの理由を説明できること
隠れマルコフモデル	隠れ状態 = 音韻、観測 = 音響特徴量。現在はDNNに置き換わりつつある