音声認識・音声合成の基礎概念

音の物理的性質から、それを処理するモデルまで

1音色(Timbre)

同じ高さ・同じ大きさの音でも、「何が出した音か」を区別できる性質が音色です。ピアノの「ド」とバイオリンの「ド」は同じ音高でも全く違って聞こえますよね。その違いが音色です。

音色の正体 = 倍音の構成

音は1つの周波数だけで鳴っているわけではなく、基本の周波数(基音)の上にたくさんの「倍音」が重なっています。この倍音の組み合わせ方が音色を決めます。

🎹 ピアノの「ラ」(440Hz) 周波数 440 基音 880 1320 1760 2200 → 基音が強く、倍音は穏やかに減衰 → クリアでまろやかな音色 🎻 バイオリンの「ラ」(440Hz) 440 基音 880 1320 1760 2200 → 倍音が豊富で基音に近い強さを保つ → 華やかで豊かな音色 ↑ 各バーの高さ = その周波数成分の強さ ↑ 各バーの高さ = その周波数成分の強さ
音声処理での重要性:人の声も同じです。同じ「あ」でも人によって倍音の構成が違うため音色が異なります。音声認識では、この個人差(音色の違い)を超えて同じ音韻を認識する必要があります。

2スペクトル包絡(Spectral Envelope)

上の倍音のバーチャートで、各バーの頂点をなめらかに結んだ曲線がスペクトル包絡です。個々の倍音の細かいギザギザを無視して、音の「全体的な周波数特性の形」を捉えます。

周波数 (Hz) → 強さ → F0 F1 F2 F3 個々の倍音(スペクトル) スペクトル包絡
なぜ重要か:スペクトル包絡の形(特にピークの位置)が、声の「母音の種類」や「話者の個性」を決定します。包絡のピークが次のセクションで説明する「フォルマント」です。

3フォルマント周波数(Formant Frequency)

スペクトル包絡の中に現れるピーク(山)の周波数がフォルマントです。低い方から第1フォルマント(F1)、第2フォルマント(F2)、第3フォルマント(F3)…と呼びます。

核心:母音の違いは、主にF1とF2の組み合わせで決まります。「あ」と「い」では声道の形が違うので、共鳴するピークの位置が変わります。

日本語の5母音のフォルマント(概算値)

F2(第2フォルマント)Hz → F1(第1フォルマント)Hz → 500 1000 1500 2000 2500 200 400 600 800 F1が大きい = 口が大きく開いている F2が大きい = 舌が前にある
母音F1(Hz)概算F2(Hz)概算口の形
~800~1200大きく開く
~300~2200横に引く、舌が前
~300~1500唇を丸める
~500~1800やや開く、舌が前
~500~800唇を丸め、舌が奥
音声認識との関係:音声認識システムは、入力音声からフォルマントの位置を分析することで「どの母音が発音されたか」を判断します。F1とF2の散布図上で母音がきれいに分離することが、認識精度の鍵です。

4サンプリング定理(Nyquist–Shannon Theorem)

アナログの音声をデジタルに変換する際の基本原理です。元の信号に含まれる最大周波数の2倍以上のサンプリング周波数で記録すれば、元の信号を完全に復元できるというものです。

fs ≥ 2 × fmax
fs = サンプリング周波数、fmax = 信号に含まれる最大周波数

イメージ:波を点で記録する

✓ 十分なサンプリング(元の波を復元できる) → 復元OK ✗ 不十分なサンプリング(エイリアシング発生) → 直線に見える!   元の波形が失われる

具体例:なぜ音楽CDは44,100Hzなのか?

計算
人間の聴覚の上限 ≈ 20,000 Hz
サンプリング定理より: fs ≥ 2 × 20,000 = 40,000 Hz
余裕を持たせて → 44,100 Hz を採用
1秒間に44,100回データを記録すれば、人間に聞こえる全ての音を再現できる

用途別サンプリング周波数

用途サンプリング周波数記録できる最大周波数
電話音声8,000 Hz4,000 Hz(声を聞き取るには十分)
音声認識16,000 Hz8,000 Hz(音声の特徴を捉えるのに十分)
音楽CD44,100 Hz22,050 Hz(人間の可聴域をカバー)
ハイレゾ音源96,000 Hz48,000 Hz(可聴域を超えた情報も保持)
エイリアシング:サンプリング周波数が不十分だと、本来存在しない偽の低い周波数が現れます。これをエイリアシングと呼び、音声が歪んで聞こえる原因になります。

5隠れマルコフモデル(HMM: Hidden Markov Model)

ディープラーニング以前の音声認識で中心的に使われていたモデルです。「直接は観測できない状態(隠れ状態)」が、観測可能な出力を生成するという確率モデルです。

まず「マルコフモデル」を理解する

マルコフ性:「次の状態は、現在の状態だけで決まり、それ以前の履歴には依存しない」という性質です。

天気の例で考えます。「明日の天気は今日の天気だけで確率的に決まる」というモデルです。

☀️ 晴れ 🌧️ 0.7 0.3 0.4 0.6 数字 = 遷移確率(その状態に移る確率) 各状態からの遷移確率の合計 = 1.0

「隠れ」マルコフモデルとは

通常のマルコフモデルでは状態(天気)が直接見えますが、隠れマルコフモデルでは状態が直接見えず、状態から生成される「観測」だけが見えるという設定です。

隠れ状態 観測(出力) 音韻 「あ」 音韻 「め」 遷移確率 音響特徴量 音響特徴量 出力確率 観測される音響特徴量から、隠れた音韻の列を推定する = 音声認識

音声認識での使われ方

🎤 音声入力
音響特徴量
を抽出
HMMで
最尤の音韻列
を推定
📝 テキスト
HMMの要素音声認識での意味
隠れ状態 発話された音韻の列(「あ」→「め」→…)。直接は見えない
観測(出力) マイクで録音された音響特徴量(スペクトルなど)。これだけが見える
遷移確率 ある音韻の次にどの音韻が来やすいかの確率
出力確率 ある音韻のときにどんな音響特徴量が観測されやすいかの確率
身近な例え:壁の向こうで誰かが話している場面を想像してください。あなたに聞こえるのは「壁越しの音」(=観測)だけで、実際にどんな言葉を発しているか(=隠れ状態)は直接見えません。HMMは、聞こえた音の特徴から「最もありそうな言葉の列」を確率的に推定するモデルです。

現在の位置づけ

HMMベース(従来)
音響モデル(HMM-GMM)+言語モデル(n-gram)を組み合わせ。各モジュールを個別に設計・学習。2010年頃まで主流。
End-to-End DNN(現在主流)
音声波形を直接入力し、テキストを直接出力するニューラルネットワーク。Transformer等を使用。HMMは不要に。

📋 全体のまとめ

音声認識の全体像における各概念の位置づけ

🎤 アナログ音声 連続的な波 サンプリング A/D変換 サンプリング定理 特徴量抽出 スペクトル包絡 フォルマント 音色の情報 認識モデル HMM / DNN 隠れマルコフモデル 📝「雨が降る」 各概念の役割まとめ ■ サンプリング定理   アナログ → デジタル変換の基礎理論 ■ 音色・スペクトル包絡・フォルマント   音声の「何を言っているか」「誰の声か」を数値化する特徴量 ■ 隠れマルコフモデル   特徴量から言葉を推定する認識エンジン

G検定での出題ポイント

概念押さえるべきポイント
音色 倍音の構成で決まる。同じ音高でも楽器や話者で異なる
スペクトル包絡 周波数成分の全体的な形。ピークの位置がフォルマント
フォルマント 母音の違いはF1とF2の組み合わせで決まる
サンプリング定理 fs ≥ 2 × fmax。CD = 44,100Hzの理由を説明できること
隠れマルコフモデル 隠れ状態 = 音韻、観測 = 音響特徴量。現在はDNNに置き換わりつつある