Stable Diffusionで画像から呪文(プロンプト)を生成・抽出できる機能を紹介!

Stable Diffusion

Stable Diffusionなどで生成されたAI画像について、「この画像はどのような呪文(プロンプト)を使用しているのだろう?」と知りたいこともあるかと思います。

Stable Diffusion Web UIに搭載されている『Interrogate CLIP』『Interrogate DeepBooru』や、拡張機能である『Tagger』を活用することによって、画像から呪文(プロンプト)を適切に推定することができます。

本記事では『Interrogate CLIP』『Interrogate DeepBooru』『Tagger』の使い方について解説し、実際に呪文(プロンプト)を画像から抽出してみます!

この記事は以下のような方におすすめです。

・好みの画像を再現するために、その画像の呪文(プロンプト)を知りたい

・過去に生成した画像の呪文(プロンプト)が分からなくなってしまった

・いろいろな画像の呪文(プロンプト)を生成/抽出することで、画像生成の幅を広げたい

※「Stable Diffusion」のインストール方法や使い方については、以下の記事を参考にしてください。

スポンサーリンク

画像から呪文(プロンプト)を生成・抽出できる機能

ではここからは画像から呪文(プロンプト)を生成・抽出できる機能について紹介していきます。いくつか種類がありますので、一つずつ説明していきます。

①Interrogate CLIP

通常は呪文(プロンプト)から画像を生成しますが、『Interrogate CLIP』は逆に画像から呪文(プロンプト)を推定する機能です。

幅広い画像に対応し、関連性の高い要素を呪文(プロンプト)として抽出できることが、このシステムの特長の一つです。呪文(プロンプト)が文章形式で表示されることから、画像の構図や状況を理解しやすくなっています。

※詳しい説明や仕組みは、以下のGitHub公式サイトをご覧ください。

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image
CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - GitHub - openai/CLIP: CLIP (Contrastive Language-Image P...

②Interrogate DeepBooru

『Interrogate DeepBooru』も『Interrogate CLIP』と同じく画像から呪文(プロンプト)を推定する機能です。

『Interrogate CLIP』との違いは、アニメやイラスト系の画像に特化した機能であることです。

『Interrogate CLIP』の解析結果は「文章」であったのに対し、『Interrogate DeepBooru』の解析結果はカンマ区切りの「タグ」になります。このタグは「Danbooruタグ」と言われます。

Stable Diffusionのアニメ系生成モデルでは、「Danbooruタグ」を呪文(プロンプト)に指定した方が精度がよくなると言われており、文章を指定するよりもベターです。

ここで、例として以下の画像を『Interrogate CLIP』と『Interrogate DeepBooru』のそれぞれで解析した結果を比較してみましょう。

元のプロンプト:

girl, short hair, smiling, school uniform, flower

まずは『Interrogate CLIP』の解析結果を見てみましょう。

a girl in a field of sunflowers with her hands up to her head , Ai-Mitsu, official art, a picture

このように、『Interrogate CLIP』の解析結果は基本的に「文章」になります。「ひまわり畑で両手を頭まで上げている女の子」ということで、画像の特徴を捉えた文章になっています。

次に『Interrogate DeepBooru』の解析結果を見ていきましょう。

1girl, bangs, black hair, blush, bow, bowtie, bush, collared shirt, daisy, dandelion, day, field, flower, flower field, garden, grass, holding flower, hydrangea, leaf, looking at viewer, orange flower, outdoors, plant, purple eyes, purple flower, red bow, red ribbon, school uniform, shirt, short hair, short sleeves, smile, solo, sunflower, sweater vest, tree, upper body, white flower, white shirt, yellow flower

『Interrogate DeepBooru』の解析結果はカンマ区切りの「タグ」になります。

③Tagger

『Tagger』は、画像からプロンプトを詳細に抽出してくれる拡張機能のことです。

「あのキャラクターの服装の呪文(プロンプト)が分からない」など、思い描いたものを呪文(プロンプト)にするのが難しい時に『Tagger』を使用することで簡単に呪文(プロンプト)を抽出してくれます。

拡張機能「Tagger」のインストール方法

ここで『Tagger』のインストール方法を紹介します。

①「Extensions」タブ→「Install from URL」タブを開きます。

②「URL for extension’s git repository」の欄に下記のURLを入力またはコピペをしてください。

GitHub - picobyte/stable-diffusion-webui-wd14-tagger: Labeling extension for Automatic1111's Web UI
Labeling extension for Automatic1111's Web UI. Contribute to picobyte/stable-diffusion-webui-wd14-tagger development by creating an account on GitHub.

よく使用されている「http://github.com/toriato/stable-diffusion-webui-wd14-tagger」は、v1.6.0ではTaggerタブが表示されません。

また、2023年7月18日にアーカイブ化されています。

③「Install」ボタンをクリックし、しばらく待つと下記のようにInstallボタンの下に文字が表示されます。

④「Installed」タブを開き、「stable-diffusion-webui-wd14-tagger」があることを確認してください。

⑤確認が出来たら、「Apply and restart UI」ボタンをクリックして再起動します。

以上が『Tagger』のインストール方法でした。

Stable Diffusionの画像生成を最速で学びたいあなたへ!
  • Stable Diffusionの基礎を2時間でマスター!
  • 高スペックPCがない方向けに徹底解説。
  • ControlNetなど、必須級の拡張機能も網羅。
  • 今話題のSDXL、AI動画生成も。
  • 特典として、大人気「おすすめ拡張機能・モデル解説」「プロンプト大全」つき!
\このボタン限定!70%オフキャンペーン実施中!/
70%オフキャンペーン実施中!/

画像から呪文(プロンプト)を生成・抽出できる機能の使い方

ここからは、これまで紹介した画像から呪文(プロンプト)を生成・抽出できる機能の使い方について解説していきます。

「Interrogate CLIP」と「Interrogate DeepBooru」の使い方

『Interrogate CLIP』と『Interrogate DeepBooru』の使い方は同じです。

①Stable Diffusion Web UIを起動して、「img2img」タブをクリックします。

②解析したい画像をアップロードします。

③呪文(プロンプト)入力欄の右にある「Interrogate CLIP」をクリックします。

④解析が終了するまで少し待つと、呪文(プロンプト)入力欄に、推測した呪文(プロンプト)が表示されます。

『Interrogate DeepBooru』で画像から呪文(プロンプト)を作成する場合は、③の工程で「Interrogate CLIP」の下にある「Interrogate DeepBooru」をクリックしましょう。

拡張機能「Tagger」の使い方

ここからは『Tagger』の使い方について解説していきますが、使用方法はとても簡単です。

『Tagger』をインストールした後は、タブの欄に「Tagger」タブが新しく追加されていると思います。

「Tagger」のタブが表示されない場合は、Stable Diffusionを終了し再起動してみてください。

Taggerタブを開き、画像欄に解析したい画像を入れ、オレンジ色の「Interrogate image」ボタンをクリックすると解析されます。

romptn Q&Aで画像生成の悩みを解決しよう!
  • Stable Diffusionのエラーが解決しない
  • 画像生成がうまくできない
  • おすすめのモデルが知りたい
など、AIに関するお悩みがあれば投稿してみてください。
詳しい人が解決してくれるかもしれません。

画像から呪文(プロンプト)を生成・抽出して画像生成してみた!

ではここからは画像から実際に呪文(プロンプト)を生成・抽出し、それらを使用して画像を生成していきたいと思います。

「Interrogate CLIP」と「Interrogate DeepBooru」で生成した画像の比較

以下の元画像について呪文(プロンプト)を生成・抽出し、画像を生成していきます。

まずは『Interrogate CLIP』で呪文(プロンプト)を解析し、その呪文(プロンプト)を使用して画像を生成してみます。

a woman with green hair and a black top standing in front of a full moon with her hair blowing in the wind, Chizuko Yoshida, luminous, a character portrait, dau-al-set

次に『Interrogate DeepBooru』で呪文(プロンプト)を解析し、その呪文(プロンプト)を使用して画像を生成してみます。

1girl, aurora, bangs, blurry, blush, breasts, cloud, crescent moon, earrings, earth (planet), full moon, galaxy, green eyes, green hair, grin, hair between eyes, jewelry, large breasts, long hair, looking at viewer, moon, moonlight, night, night sky, planet, red moon, ribbed sweater, shooting star, sky, smile, solo, space, star (sky), starry sky, starry sky print, sun, sweater, turtleneck, turtleneck sweater, upper body

今回はアニメ画像を元画像としたため、『Interrogate DeepBooru』で解析した呪文(プロンプト)の方が表情などをより元画像に近づけることができています。

拡張機能「Tagger」を使って生成した画像

では拡張機能である『Tagger』を使用して呪文(プロンプト)を生成・抽出し、同様に画像を作っていきましょう。

1girl, smile, solo, green eyes, sweater, green hair, long hair, moon, breasts, black sweater, upper body, looking at viewer, earrings, jewelry, full moon, bangs, turtleneck, blush, night, large breasts, grin, sky, hair between eyes, night sky, floating hair, teeth, star (sky), turtleneck sweater, ribbed sweater, starry sky, outdoors

『Tagger』を活用した場合も、元画像にかなり近い画像を生成することができました。

メタデータが残っている画像は呪文(プロンプト)の確認も可能!

メタデータが残っている画像については、「PNG Info」機能を使うことで簡単にその画像の呪文(プロンプト)を確認することができます。

①Stable Diffusion Web UIを起動し、「PNG Info」のタブをクリックします。

②画像をアップロードします。

③「parameters」の欄に画像の呪文(プロンプト)が表示されます。

メタデータとは、Stable Diffusionなどで生成した画像ファイルに自動的に付与されている呪文(プロンプト)情報のことです。

ただし、画像ファイルの形式を例えばpngからjpgに変更して保存したりすると、付与されていた呪文(プロンプト)情報は消えてしまいます

まとめ

いかがでしたでしょうか?

今回はStable Diffusionで画像から呪文(プロンプト)を生成・抽出できる機能を紹介について解説してきました。

今回のポイントをまとめると、以下のようになります。

  • 『Interrogate CLIP』『Interrogate DeepBooru』『Tagger』を活用することで、画像から呪文(プロンプト)の生成・抽出・読み取りができる
  • 画像のメタデータが残っている場合は『PNG Info』を活用することで、呪文(プロンプト)を表示することができる

好みの画像を再現してみたい場合や、過去生成した画像の呪文(プロンプト)を知りたい場合などに、とても役立つ機能について紹介してきました。

どれも簡単に利用できますので、是非気軽に活用してみてください!

romptn Q&Aで画像生成の悩みを解決しよう!
  • Stable Diffusionのエラーが解決しない
  • 画像生成がうまくできない
  • おすすめのモデルが知りたい
など、AIに関するお悩みがあれば投稿してみてください。
詳しい人が解決してくれるかもしれません。