AI音声読み上げのための細かな指示を、テキスト文でできるようにしたものが音声マークアップ言語SSML(Speech Synthesis Markup Language)です。
SSMLは、Webページの記述言語であるHTML(HyperText Markup Language)と同じように、「開始」タグ(opening tag)と「終了」タグ(closing tag)の組み合わせで記述するスタイルを取っています。
- SSMLの仕様の詳細は下記WEBページにあります。W3C(2010) “Speech Synthesis Markup Language (SSML) Version 1.1” 2010/9/7
https://www.w3.org/TR/speech-synthesis/ - Google作成のリファレンスが下記WEBページにあります。Google 「音声合成マークアップ言語(SSML)」ホーム>Cloud Text-to-Speech API>ドキュメント>リファレンス
https://cloud.google.com/text-to-speech/docs/ssml?hl=jaただ残念なことに、本リファレンスは、W3Cの仕様詳細のかなりコンパクトな説明です。きめ細かい指示をするためには、W3Cの仕様詳細を読む必要があります。
- SSMLの詳細は、上記をご覧いただければと思いますが、SSMLを用いることで、読み上げの「ピッチ」(音の高低)、「発話速度」、「音量」などのカスタマイズが可能です。
- 例えば、下記のように記述すると、通常より半音2つ分低く、ゆっくりとした読み上げになるとのことです。
<prosody pitch=”-2st” rate=”slow” >Can you hear me now?</prosody>
pitch=”-2st” が「ピッチ(音の高低)を半音2つ分低くする」指示です。
rate=”slow” が「ゆっくりと読み上げさせる」指示です。なお、 ピッチ(音の高低)、発話速度に関する指示 prosodyの詳細は、
下記に説明があります。
https://www.w3.org/TR/speech-synthesis11/#S3.2.4 - 音量については、相対的指示( 例:”x-low”, “low”, “medium”, “high”, “x-high”)だけでなく、デシベル単位での細かな指示(例:+6.0dB)も可能なようです。強調・非強調といった音量に関する指示emphasisの詳細は下記にあります。
https://www.w3.org/TR/speech-synthesis/#S3.2.2
- 例えば、下記のように記述すると、通常より半音2つ分低く、ゆっくりとした読み上げになるとのことです。
- SSMLを用いた音声読み上げ指示の具体例に関して、本サイトでは下記で具体例を紹介しています。