音声マークアップ言語SSML（Speech Synthesis Markup Language）

AI音声読み上げのための細かな指示を、テキスト文でできるようにしたものが音声マークアップ言語SSML(Speech Synthesis Markup Language)です。

SSMLは、Webページの記述言語であるHTML(HyperText Markup Language)と同じように、「開始」タグ(opening tag)と「終了」タグ(closing tag)の組み合わせで記述するスタイルを取っています。

SSMLの仕様の詳細は下記WEBページにあります。
W3C(2010) “Speech Synthesis Markup Language (SSML) Version 1.1” 2010/9/7
https://www.w3.org/TR/speech-synthesis/
　
Google作成のリファレンスが下記WEBページにあります。
Google 「音声合成マークアップ言語（SSML）」ホーム＞Cloud Text-to-Speech API＞ドキュメント＞リファレンス
https://cloud.google.com/text-to-speech/docs/ssml?hl=ja
ただ残念なことに、本リファレンスは、W3Cの仕様詳細のかなりコンパクトな説明です。きめ細かい指示をするためには、W3Cの仕様詳細を読む必要があります。
　
SSMLの詳細は、上記をご覧いただければと思いますが、SSMLを用いることで、読み上げの「ピッチ」（音の高低）、「発話速度」、「音量」などのカスタマイズが可能です。
1. 例えば、下記のように記述すると、通常より半音2つ分低く、ゆっくりとした読み上げになるとのことです。
  　<prosody pitch=”-2st” rate=”slow” >Can you hear me now?</prosody>
  　
  　　　　pitch=”-2st”　が「ピッチ（音の高低）を半音2つ分低くする」指示です。
  　　　　rate=”slow”　が「ゆっくりと読み上げさせる」指示です。
  なお、　ピッチ（音の高低）、発話速度に関する指示 prosodyの詳細は、
  下記に説明があります。
  https://www.w3.org/TR/speech-synthesis11/#S3.2.4
  　
2. 音量については、相対的指示（例：”x-low”, “low”, “medium”, “high”, “x-high”）だけでなく、デシベル単位での細かな指示（例：+6.0dB）も可能なようです。
  強調・非強調といった音量に関する指示emphasisの詳細は下記にあります。
  https://www.w3.org/TR/speech-synthesis/#S3.2.2
  　
SSMLを用いた音声読み上げ指示の具体例に関して、本サイトでは下記で具体例を紹介しています。
1. 音声合成マークアップ言語(SSML)の利用例1-日本語による「AIに関するピーターパンとアラレちゃんの仮想対話」
2. 音声合成マークアップ言語(SSML)の利用例2-英語による「AIに関するピーターパンとアラレちゃんの仮想対話」

上記は生成AIに作成させたイラスト図です。

音声マークアップ言語SSML（Speech Synthesis Markup Language）

メタ情報