画像生成AIによる画像作成において問題となるのは、「自分が作りたいと思っている画像を生成させるために、具体的にどのようなプロンプト文を与えれば良いのか?」ということである。テキスト生成AIでも自分の希望に合った回答を得るためには、適切なプロンプト文の作成が重要であるが、同じことが画像生成AIでも問題になる。
自分がイメージする画像を言葉=テキストできちんと明確に説明するのは、なかなか困難である。例えば、ピーターパンのイラストを作成ようとしたときに、ピーターパンの特徴を言葉で適確に説明できる人はそれほど多くはないであろう。
自分がイメージする画像に関するプロンプト文を作成する一つの方法は、本サイトの下記記事などで紹介しているように、テキスト生成AIに画像生成のためのプロンプト文を作成させることである。(ユーザー視点から見てChatGPT4oが使いやすいのは、テキスト生成AIと画像生成AIがシームレスに統合されていることで、文章のコンテクストや含意をかなり適切に掴んだプロンプト文を簡単に画像生成AIに与えることができる点である。Perplexity AIは、テキスト生成AIと画像生成AIがそれぞれ独立したサービスとして存在しているため、下記のように2段階的手法が必要になることが多い。)
ここでは、テキスト生成AIを利用して作成したプロンプト文を画像生成AIに直接与えて画像を生成させる試みを紹介する。
下記の各画像はすべて、同一の画像生成AI Playground v2.5(無料版)で、同一のプロンプト文(Perplexity AIが生成したテキストを一部修正した下記文章)を用いて作成した。
Playground v2.5に与えたプロンプト文
The description provided matches the character of Peter Pan from J.M. Barrie’s novel. Peter Pan is depicted as a boy with a green hat with a feather, wearing a green tunic, and having blonde hair. He can fly, lives in the magical world of Neverland.
それにも関わらず、下記のように多様な画像が生成されるのは、下記の2つの要因によるものである。
- Playground v2.5が他の画像生成AIと同じく多種多様な画像生成スタイル(使用Filter)をもっていること
- Playground v2.5が画像生成AIが「new image style iadeas」を得ることができるように生成AIを用いてプロンプト文を自動修正する「Expand Prompt」機能を持っていること
「Expand Prompt」機能により、各Filterごとにかなり異なったプロンプト文が与えられていることで、異なる画像が生成されている。
Playground v2.5が「Expand Prompt」機能によって自動修正されたプロンプト文(例1)とその画像
Peter Pan, J.M. Barrie’s novel inspiration, flying through Neverland, green feathered hat atop his golden wavy locks, clad in earthy green tunic, surrounded by Neverland’s legendary flora, composition adhering to golden ratio, fake detailed textures, trending on Pixiv Fanbox, capturing the essence with an acrylic palette knife technique, artistic style fusion of Makoto Shinkai, Studio G
Playground v2.5が「Expand Prompt」機能によって自動修正されたプロンプト文(例2)とその画像
The description provided matches the character of Peter Pan from J.M. Barrie’s novel. Peter Pan is depicted as a boy with a green hat with a feather, wearing a green tunic, and having blonde hair. He can fly, lives in the magical world of Neverland., low poly, isometric art, 3d art, high detail, artstation, concept art, behance, ray tracing, smooth, sharp focus, ethereal lighting
Playground v2.5が「Expand Prompt」機能によって自動修正されたプロンプト文(例3)とその画像
Peter Pan, J.M. Barrie’s literary figure, wearing a feather-adorned green hat, draped in a green tunic, his blonde locks flowing freely, soaring over the enchanting realm of Neverland, captured in an acrylic painting, trending on Pixiv FanBox, featuring a blend of palette knife and brush strokes, infused with the stylistic essence of Makoto Shinkai, Jamie Wyeth
Playground v2.5が「Expand Prompt」機能によって自動修正されたプロンプト文(例4)とその画像
Peter Pan graces the scene, complete with his trademark green tunic and cap, feather-adorned, alongside his fair tresses gently swaying in the Neverland breeze, depicted in film photography style, illuminated with dreamy light leaks, high-definition, physics-defying haze effect, trendsetting on Artstation, captured in acute focus, resonating with intricate details with regard to his ageless character, immortalized by Greg
下記画像に示されているように、画像生成専用AIに直接にプロンプト文を与えた方が、より高度で、多種多様な画像を生成することができる。同一プロンプト文であっても、また同一の使用スタイルFileteであっても、デフォルト設定で帽子の有無、服の袖の長さの違いなど、多種多様な画像が生成される。(下記画像をクリックすると、より大きな画像を見ることができる。1024ドット×1024ドットの拡大画像で見ると画像から受ける印象がかなり異なることがわかる。なお画像を表示するディスプレイの色調にも大きな影響を受けることにも注意する必要がある。)
使用Filter:Lush illumination
使用Filter:Lush illumination(2)
使用Filter:Ethereal Low poly
Wasteland
Warm box
Flat Palette
【Playground.com利用に関わる参考情報】
Playgroundは、Googleアカウントがあれば簡単にユーザー登録ができ、無料利用が可能である。
2024年6月6日現在、Playgroundで画像生成に使えるスタイルは左図のように24個と数多くある。 |
また、Perplexity経由では上記の英文プロンプトに示されているように、画像生成に使えるプロンプト文の長さがかなり短かったが、playground.comに直接アクセスして利用する場合にはかなり長文のプロンプト文の入力が可能となっている。しかしながら本記事では、Playground経由での間接的利用の場合と、playground.comでの直接的利用の違いを示すために、同一プロンプトを用いた。
Playground v2.5の画像生成画面は下記のようなものである。残念ながら、画面は日本語表記ではなく、英語表記である。Prompt(プロンプト文)を入れる欄の上に、画像生成に際して利用可能なFilterの選択欄がある。
ピンバック: Perplexity AIを利用したイラスト作成(2)-ピーターパンの挿絵を題材として | コスモピア AI研究室