音声マークアップ言語SSML(Speech Synthesis Markup Language)

AI音声読み上げのための細かな指示を、テキスト文でできるようにしたものが音声マークアップ言語SSML(Speech Synthesis Markup Language)です。

SSMLは、Webページの記述言語であるHTML(HyperText Markup Language)と同じように、「開始」タグ(opening tag)と「終了」タグ(closing tag)の組み合わせで記述するスタイルを取っています。

 
  1. SSMLの仕様の詳細は下記WEBページにあります。
     
  2. Google作成のリファレンスが下記WEBページにあります。
    Google 「音声合成マークアップ言語(SSML)」ホーム>Cloud Text-to-Speech API>ドキュメント>リファレンス
    https://cloud.google.com/text-to-speech/docs/ssml?hl=ja

    ただ残念なことに、本リファレンスは、W3Cの仕様詳細のかなりコンパクトな説明です。きめ細かい指示をするためには、W3Cの仕様詳細を読む必要があります。

     
  3. SSMLの詳細は、上記をご覧いただければと思いますが、SSMLを用いることで、読み上げの「ピッチ」(音の高低)、「発話速度」、「音量」などのカスタマイズが可能です。
    1. 例えば、下記のように記述すると、通常より半音2つ分低く、ゆっくりとした読み上げになるとのことです。

       <prosody pitch=”-2st” rate=”slow” >Can you hear me now?</prosody>
       
          pitch=”-2st” が「ピッチ(音の高低)を半音2つ分低くする」指示です。
          rate=”slow” が「ゆっくりと読み上げさせる」指示です。

      なお、 ピッチ(音の高低)、発話速度に関する指示 prosodyの詳細は、
      下記に説明があります。
      https://www.w3.org/TR/speech-synthesis11/#S3.2.4

       
    2. 音量については、相対的指示( 例:”x-low”, “low”, “medium”, “high”, “x-high”)だけでなく、デシベル単位での細かな指示(例:+6.0dB)も可能なようです。
      強調・非強調といった音量に関する指示emphasisの詳細は下記にあります。
      https://www.w3.org/TR/speech-synthesis/#S3.2.2
       

  4. SSMLを用いた音声読み上げ指示の具体例に関して、本サイトでは下記で具体例を紹介しています。
    1. 音声合成マークアップ言語(SSML)の利用例1-日本語による「AIに関するピーターパンとアラレちゃんの仮想対話」
    2. 音声合成マークアップ言語(SSML)の利用例2-英語による「AIに関するピーターパンとアラレちゃんの仮想対話」


上記は生成AIに作成させたイラスト図です。

カテゴリー: TIPS, ピーターパンとアラレちゃんのAIについての討, 文章読み上げ, 音声合成マークアップ言語(SSML) パーマリンク