ここでは、Google Text-to-Speechにおいて、音声合成マークアップ言語(Speech Synthesis Markup Language;SSML)を用いた発話者の指定法についてのサンプルを挙げる。
2024年5月14日現在では、Google Text-to-Speechの日本語読み上げに関するWEBでの対話的利用においてNerural2の音声を使用することは、下記のようなエラー表示が出て残念ながらできない。
The requested voice cannot support ssml tags that use Neural2 or Studio voices. Please modify your request and try again.
そのため下記サンプルでは、WaveNet音声を利用している。
GoogleのText-to-Speechを利用して作成したAI音声
なお参考のために、ChtGPT4oの音声読み上げ機能を利用した音声ファイルを下記に挙げます。聞き比べると、ChtGPT4oは、日本語の流暢な外国人が話しているような印象をより強く受けるものの、その音声読み上げ機能の性能の高さに驚かされます。
- 読み上げVoice:Cove
- 読み上げVoice:Juniper
--- 以下、サンプル例 ---
下記のテキスト版のダウンロードはこちらからできます。<speak>
<voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-D”>
ピーターパンとアラレちゃんのAIについての討論<break time=”2s”/></voice>
<voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>アラレちゃん、AIって知ってる?
</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/><emphasis level=”strong”>うん、知ってるよ!AIって人工知能のことだよね!</emphasis>ドクタースランプのセンベエさんが作った私みたいなものかな?
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>そうだね。でも、AIは君みたいに動くロボットだけじゃなくて、話すこともできるんだよ。
</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/><emphasis level=”moderate”>へえ、それは面白いね!</emphasis>AIはどんなことを話すの?
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>いろいろだよ。人間の言葉を学んで、人間と同じように会話ができるんだ。でも、AIはプログラムされた情報に基づいて話すから、本当の感情はないんだって。</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/><emphasis level=”moderate”>そうなんだ。</emphasis>でも、私もプログラムされてるけど、楽しいことや面白いことがいっぱいあるよ!
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>確かにね。でも、AIが人間の作家やアーティストの仕事をすることについて、どう思う?</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/>うーん、AIが絵を描いたり、物語を書いたりするのはすごいと思うけど、やっぱり人間のアーティストが持っている心が入っていないと、何か違うかもしれないね。
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>そうだね。AIはとても賢いけど、人間のように感情を持つことはできないから、作品に心がこもっているかどうかは、大きな問題だね。</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/>でも、AIが人間と協力して、もっと素敵なものを作れたらいいなと思うよ!
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-C”>
ピーターパン: <break time=”900ms”/>その考えは素晴らしいね!AIと人間が一緒に働くことで、新しい可能性が広がるかもしれないね。</voice><voice language=”ja-JP” gender=”female” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-B”>
アラレ: <break time=”900ms”/><emphasis level=”moderate”>そうだね!</emphasis>私たちも協力して、楽しい冒険をたくさんしようね!<break time=”2s”/>
</voice><voice language=”ja-JP” gender=”male” required=”gender” ordering=”gender language” name=”ja-JP-Wavenet-D”>
この対話では、ピーターパンとアラレちゃんがAIの能力と限界について友好的に討論しています。彼らはAIが人間のクリエイティブな仕事をどのように補助または置き換える可能性があるかについて意見を交わし、最終的にはAIと人間が協力することの重要性を認識しています。
</voice></speak>
ピンバック: 鉄腕アトム型AIとしてのPerplexity AI(その2)-追加指示による対話文の生成 – コスモピア AI研究室
ピンバック: 音声マークアップ言語SSML(Speech Synthesis Markup Language) | コスモピア AI研究室