音声認識・音声合成の基礎概念
音の物理的性質から、それを処理するモデルまで
1音色(Timbre)
同じ高さ・同じ大きさの音でも、「何が出した音か」を区別できる性質が音色です。ピアノの「ド」とバイオリンの「ド」は同じ音高でも全く違って聞こえますよね。その違いが音色です。
音色の正体 = 倍音の構成
音は1つの周波数だけで鳴っているわけではなく、基本の周波数(基音)の上にたくさんの「倍音」が重なっています。この倍音の組み合わせ方が音色を決めます。
音声処理での重要性:人の声も同じです。同じ「あ」でも人によって倍音の構成が違うため音色が異なります。音声認識では、この個人差(音色の違い)を超えて同じ音韻を認識する必要があります。
2スペクトル包絡(Spectral Envelope)
上の倍音のバーチャートで、各バーの頂点をなめらかに結んだ曲線がスペクトル包絡です。個々の倍音の細かいギザギザを無視して、音の「全体的な周波数特性の形」を捉えます。
なぜ重要か:スペクトル包絡の形(特にピークの位置)が、声の「母音の種類」や「話者の個性」を決定します。包絡のピークが次のセクションで説明する「フォルマント」です。
3フォルマント周波数(Formant Frequency)
スペクトル包絡の中に現れるピーク(山)の周波数がフォルマントです。低い方から第1フォルマント(F1)、第2フォルマント(F2)、第3フォルマント(F3)…と呼びます。
核心:母音の違いは、主にF1とF2の組み合わせで決まります。「あ」と「い」では声道の形が違うので、共鳴するピークの位置が変わります。
日本語の5母音のフォルマント(概算値)
| 母音 | F1(Hz)概算 | F2(Hz)概算 | 口の形 |
| あ | ~800 | ~1200 | 大きく開く |
| い | ~300 | ~2200 | 横に引く、舌が前 |
| う | ~300 | ~1500 | 唇を丸める |
| え | ~500 | ~1800 | やや開く、舌が前 |
| お | ~500 | ~800 | 唇を丸め、舌が奥 |
音声認識との関係:音声認識システムは、入力音声からフォルマントの位置を分析することで「どの母音が発音されたか」を判断します。F1とF2の散布図上で母音がきれいに分離することが、認識精度の鍵です。
4サンプリング定理(Nyquist–Shannon Theorem)
アナログの音声をデジタルに変換する際の基本原理です。元の信号に含まれる最大周波数の2倍以上のサンプリング周波数で記録すれば、元の信号を完全に復元できるというものです。
イメージ:波を点で記録する
具体例:なぜ音楽CDは44,100Hzなのか?
計算
人間の聴覚の上限 ≈ 20,000 Hz
サンプリング定理より: fs ≥ 2 × 20,000 = 40,000 Hz
余裕を持たせて → 44,100 Hz を採用
1秒間に44,100回データを記録すれば、人間に聞こえる全ての音を再現できる
用途別サンプリング周波数
| 用途 | サンプリング周波数 | 記録できる最大周波数 |
| 電話音声 | 8,000 Hz | 4,000 Hz(声を聞き取るには十分) |
| 音声認識 | 16,000 Hz | 8,000 Hz(音声の特徴を捉えるのに十分) |
| 音楽CD | 44,100 Hz | 22,050 Hz(人間の可聴域をカバー) |
| ハイレゾ音源 | 96,000 Hz | 48,000 Hz(可聴域を超えた情報も保持) |
エイリアシング:サンプリング周波数が不十分だと、本来存在しない偽の低い周波数が現れます。これをエイリアシングと呼び、音声が歪んで聞こえる原因になります。
5隠れマルコフモデル(HMM: Hidden Markov Model)
ディープラーニング以前の音声認識で中心的に使われていたモデルです。「直接は観測できない状態(隠れ状態)」が、観測可能な出力を生成するという確率モデルです。
まず「マルコフモデル」を理解する
マルコフ性:「次の状態は、現在の状態だけで決まり、それ以前の履歴には依存しない」という性質です。
天気の例で考えます。「明日の天気は今日の天気だけで確率的に決まる」というモデルです。
「隠れ」マルコフモデルとは
通常のマルコフモデルでは状態(天気)が直接見えますが、隠れマルコフモデルでは状態が直接見えず、状態から生成される「観測」だけが見えるという設定です。
音声認識での使われ方
🎤 音声入力
→
音響特徴量
を抽出
→
HMMで
最尤の音韻列
を推定
→
📝 テキスト
| HMMの要素 | 音声認識での意味 |
| 隠れ状態 |
発話された音韻の列(「あ」→「め」→…)。直接は見えない |
| 観測(出力) |
マイクで録音された音響特徴量(スペクトルなど)。これだけが見える |
| 遷移確率 |
ある音韻の次にどの音韻が来やすいかの確率 |
| 出力確率 |
ある音韻のときにどんな音響特徴量が観測されやすいかの確率 |
身近な例え:壁の向こうで誰かが話している場面を想像してください。あなたに聞こえるのは「壁越しの音」(=観測)だけで、実際にどんな言葉を発しているか(=隠れ状態)は直接見えません。HMMは、聞こえた音の特徴から「最もありそうな言葉の列」を確率的に推定するモデルです。
現在の位置づけ
HMMベース(従来)
音響モデル(HMM-GMM)+言語モデル(n-gram)を組み合わせ。各モジュールを個別に設計・学習。2010年頃まで主流。
End-to-End DNN(現在主流)
音声波形を直接入力し、テキストを直接出力するニューラルネットワーク。Transformer等を使用。HMMは不要に。
📋 全体のまとめ
音声認識の全体像における各概念の位置づけ
G検定での出題ポイント
| 概念 | 押さえるべきポイント |
| 音色 |
倍音の構成で決まる。同じ音高でも楽器や話者で異なる |
| スペクトル包絡 |
周波数成分の全体的な形。ピークの位置がフォルマント |
| フォルマント |
母音の違いはF1とF2の組み合わせで決まる |
| サンプリング定理 |
fs ≥ 2 × fmax。CD = 44,100Hzの理由を説明できること |
| 隠れマルコフモデル |
隠れ状態 = 音韻、観測 = 音響特徴量。現在はDNNに置き換わりつつある |