PerplexityAIを利用したイラスト作成(1)で指摘したように、Perplexity AIは、OPEN AIのChatGPT4oのように、テキスト、画像、音声などをシームレスに一元的に取り扱う生成AI(マルチモーダルな生成AI)ではないため、テキスト文から画像を直接的に生成することはできない。
Perplexity AI(有料版)における画像生成の流れ
第1段階 テキスト生成エンジン(GPT-4o、GPT-4 Turbo、Claude3 Opus、Sonar Large 32Kなどの中から選択可能)によるテキスト生成
↓
第2段階 テキスト生成エンジンによる画像生成エンジン(Playground v2.5、Stable Diffusion XL、DALL-E3の中から選択可能)へのプロンプト文の自動生成
↓
第3段階 Painting, Photograph,Illustraition, Diagramという4つの画像生成スタイルに基づく画像生成(画像生成エンジンに渡すプロンプト文はPerplexity AIによって自動生成されたものが最初は利用されるため、ユーザー側で指定することはできない)
上記に記したように、Perplexity AIでは「画像生成に必要なプロンプト文を生成する」という間接的な方法によってしか画像生成ができない。しかもPerplexity AIが画像生成エンジンに渡すテキスト文は、最初は、Perplexity AI側で自動的に生成されるシステムとなっているため、ユーザーが直接的に指定することはできない。
下記画像の場合で言えば、Perplexity AIが自動生成したプロンプト文は、”The description provided matches the character of Peter Pan from J.M. Barrie’s novel. Peter Pan is depicted as a boy with a green hat with a feather, wearing a green tunic, and having blonde hair. He can fly, lives in the magical world of Never”というものである。(NeverlandではなくNeverとなっているのは、Perplexity AIが画像生成エンジンに渡すプロンプト文の長さに制限があるため、文章が途中でカットされたものと思われる。)
Perplexity AIで利用できる、Playground v2.5、Stable Diffusion XL、DALL-E3という3つの画像生成エンジンを利用して画像生成を試みた結果は下記の通りである。画像生成のためのテキスト文は同一であっても、画像生成エンジンによってかなり異なった画像が生成されることが明瞭に見てとれる。
画像生成エンジンとして、Playground v2.5を利用した画像
画像生成エンジンとして、Stable Diffusion XLを利用した画像
[注]Stable Diffusion XLでは筆者が好ましいと思う画像がうまく生成されなかったので、何回か生成を繰り返し、よりマシと思われる画像を下記にアップした。
画像生成エンジンとして、DALL-E3を利用した画像
生成AIの回答はランダムに生成されるため、PerplexityAIを利用したイラスト作成(1)と同一のイラスト画像をアップロードし、「アップロードしたイラスト画像をカラー化してください。」というプロンプト文を再度与えたが、今度は下記のような回答となった。
この回答結果を利用して画像生成をおこなっても適切な画像を生成させることができなかった。
1-a 与えたプロンプト文アップロードしたイラスト画像をカラー化してください。
1-b 上記プロンプト文に対する回答結果
申し訳ありませんが、イラストのカラー化を行うための適切な検索結果がありませんでした。しかし、イラストのカラー化に特化したウェブサイトやアプリがいくつかあるようです。
代わりに、クリエイティブな作業をサポートする方法をご提案させていただきます。
(・・・以下、略)
次に、画像アップロードではなく、テキスト文をプロンプトとして与えた。今度は下記のように「申し訳ありませんが、私は画像を生成することはできません。私はテキストベースのAIアシスタントであり、画像の生成や編集機能は持ち合わせていないためです。」という回答結果となり、その回答結果を利用して画像生成をおこなっても適切な画像を生成させることができなかった。
2-a 与えたプロンプト文下記に記述するピーター・パンというキャラクターにふさわしい画像を生成してください。
####
ピーター・パンは、Sir James Matthew Barrie(1860年5月9日 – 1937年6月19日)によって創作されたキャラクターであり、1904年に発表された戯曲『ピーター・パン:大人にならない少年』(Peter Pan; or, the Boy Who Wouldn’t Grow Up)や1911年に発表された小説『ピーターとウェンディ』(Peter and Wendy)の主人公であり、空を飛ぶことができる。
ピーター・パンはロンドンのケンジントン公園で乳母車から落ちたところをベビーシッターに見つけられず迷子となったことから年を取らなくなり、海賊のフック船長やインディアンのタイガーリリーが住む異世界・ネヴァー・ネヴァー・ランド(ネバーランド)に移り住み妖精・ティンカーベルと共に冒険の日々を送る永遠の少年である。
ネバーランドにはピーターと同じように親とはぐれた迷子の子どもたち(ロストボーイズ)がおり、ピーターは彼らのリーダー的な存在である。
2-b 上記プロンプト文に対する回答結果
申し訳ありませんが、私は画像を生成することはできません。私はテキストベースのAIアシスタントであり、画像の生成や編集機能は持ち合わせていないためです。ただし、ピーター・パンのキャラクターについて、あなたが提供してくださった説明を元に、彼の特徴をまとめることはできます。
ピーター・パンは:
J.M.バリーによって創作された永遠の少年
空を飛ぶことができる
ネバーランドに住み、妖精のティンカーベルと冒険を繰り広げる
海賊のフック船長やインディアンのタイガーリリーとも関わりがある
親とはぐれた迷子の子どもたち「ロストボーイズ」のリーダー的存在
これらの特徴を押さえた上で、緑の帽子に羽根飾りをつけ、緑のチュニックを着た金髪の少年として描かれることが多いようです。ピーター・パンのイメージに合う既存のイラストを探すのが良いかもしれません。イラストを発注する場合は、以上の特徴を画家にしっかりと伝えることをおすすめします。
次に、ピーターパンというキャラクターに関して先の回答例(2)で示された特徴記述をもとに、下記のようなテキスト文をプロンプトとして与えた。そうすると、Perplexity AI標準搭載の画像生成機能を利用した画像作成が可能となり、本WEB記事の冒頭で掲載したような「ピーターパン」の画像を作成できた。
3-a 与えたプロンプト文下記の特徴を備えた少年の画像を生成してください。
#####
緑の帽子に羽根飾りをつけ、緑のチュニックを着た金髪の少年
空を飛ぶことができる
ネバーランドに住み、妖精のティンカーベルと冒険を繰り広げる
海賊のフック船長やインディアンのタイガーリリーとも関わりがある
親とはぐれた迷子の子どもたち「ロストボーイズ」のリーダー的存在
3-b 上記プロンプト文に対する回答結果
申し訳ありませんが、私には画像を生成する能力はありません。私はテキストベースのAIアシスタントで、画像の生成や編集はできません。ただし、あなたが説明した特徴から、それがJ.M.バリーの小説に登場するピーター・パンという少年のことだと分かります。ピーター・パンは以下のような特徴を持っています:
– 緑の帽子に羽根の飾りをつけ、緑のチュニックを着ている金髪の少年[1][2]
– 空を自由に飛ぶことができる[4]
– 永遠の子供の国ネバーランドに住んでいる[4]
– 妖精のティンカーベルといつも一緒にいて冒険を繰り広げる[3][7]
– 海賊のフック船長やインディアンの姫タイガーリリーとも関わりがある[3]
– ネバーランドで迷子になった子供たち「ロストボーイズ」のリーダー的存在[8]
ピーター・パンのイラストや画像をお探しの場合は、インターネット上の画像検索サービスをご利用いただくのがよいかと思います。「ピーターパン イラスト」などのキーワードで検索すると、たくさんのピーター・パンのイラストが見つかるはずです。[5][9][11][12][17]
Perplexity AIが画像生成に実際に利用したプロンプトは、下記のような英文であった。なおPerplexity AIが画像生成エンジンに渡すプロンプト文は、下記の左側の画像の赤丸で囲ったスパナ・アイコンをクリックすると表示される。
The description provided matches the character of Peter Pan from J.M. Barrie’s novel. Peter Pan is depicted as a boy with a green hat with a feather, wearing a green tunic, and having blonde hair. He can fly, lives in the magical world of Never