Stable Diffusionで画像から呪文(プロンプト)を生成・抽出できる機能を紹介！

Stable Diffusionなどで生成されたAI画像について、「この画像はどのような呪文（プロンプト）を使用しているのだろう？」と知りたいこともあるかと思います。

Stable Diffusion Web UIに搭載されている『Interrogate CLIP』と『Interrogate DeepBooru』や、拡張機能である『Tagger』を活用することによって、画像から呪文（プロンプト）を適切に推定することができます。

本記事では『Interrogate CLIP』『Interrogate DeepBooru』『Tagger』の使い方について解説し、実際に呪文（プロンプト）を画像から抽出してみます！

この記事は以下のような方におすすめです。

・好みの画像を再現するために、その画像の呪文（プロンプト）を知りたい

・過去に生成した画像の呪文（プロンプト）が分からなくなってしまった

・いろいろな画像の呪文（プロンプト）を生成／抽出することで、画像生成の幅を広げたい

※「Stable Diffusion」のインストール方法や使い方については、以下の記事を参考にしてください。

romptn aiでは完全無料のAIクリエイターセミナーを開催しています。

画像生成AIクリエイターとして活躍しているインフルエンサーを講師として、実際にプロが使うテクニックや最前線の知識を直接ハンズオン形式で学ぶことができます。

ぜひ興味のある方はセミナーの詳細情報をチェックしてみてください。

\ 先着限定！30秒で申込完了！ /

セミナーの詳細をみてみる

画像から呪文(プロンプト)を生成・抽出できる機能
画像から呪文(プロンプト)を生成・抽出できる機能の使い方
画像から呪文(プロンプト)を生成・抽出して画像生成してみた！
メタデータが残っている画像は呪文(プロンプト)の確認も可能！
まとめ

画像から呪文(プロンプト)を生成・抽出できる機能

ではここからは画像から呪文（プロンプト）を生成・抽出できる機能について紹介していきます。

いくつか種類がありますので、一つずつ説明していきます。

①Interrogate CLIP

通常は呪文（プロンプト）から画像を生成しますが、『Interrogate CLIP』は逆に画像から呪文（プロンプト）を推定する機能です。

幅広い画像に対応し、関連性の高い要素を呪文（プロンプト）として抽出できることが、このシステムの特徴の一つです。

呪文（プロンプト）が文章形式で表示されることから、画像の構図や状況を理解しやすくなっています。

※詳しい説明や仕組みは、以下のGitHub公式サイトをご覧ください。

②Interrogate DeepBooru

『Interrogate DeepBooru』も『Interrogate CLIP』と同じく画像から呪文（プロンプト）を推定する機能です。

『Interrogate CLIP』との違いは、アニメやイラスト系の画像に特化した機能であることです。

『Interrogate CLIP』の解析結果は「文章」であったのに対し、『Interrogate DeepBooru』の解析結果はカンマ区切りの「タグ」になります。

このタグはDanbooruタグと言われます。

Stable Diffusionのアニメ系生成モデルでは、「Danbooruタグ」を呪文（プロンプト）に指定した方が精度がよくなると言われており、文章を指定するよりもベターです。

ここで、例として以下の画像を『Interrogate CLIP』と『Interrogate DeepBooru』のそれぞれで解析した結果を比較してみましょう。

元のプロンプト：

girl, short hair, smiling, school uniform, flower

まずは『Interrogate CLIP』の解析結果を見てみましょう。

a girl in a field of sunflowers with her hands up to her head , Ai-Mitsu, official art, a picture

このように、『Interrogate CLIP』の解析結果は基本的に「文章」になります。

「ひまわり畑で両手を頭まで上げている女の子」ということで、画像の特徴を捉えた文章になっています。

次に『Interrogate DeepBooru』の解析結果を見ていきましょう。

1girl, bangs, black hair, blush, bow, bowtie, bush, collared shirt, daisy, dandelion, day, field, flower, flower field, garden, grass, holding flower, hydrangea, leaf, looking at viewer, orange flower, outdoors, plant, purple eyes, purple flower, red bow, red ribbon, school uniform, shirt, short hair, short sleeves, smile, solo, sunflower, sweater vest, tree, upper body, white flower, white shirt, yellow flower

『Interrogate DeepBooru』の解析結果はカンマ区切りの「タグ」になります。

③Tagger

『Tagger』は、画像からプロンプトを詳細に抽出してくれる拡張機能のことです。

「あのキャラクターの服装の呪文(プロンプト)が分からない」など、思い描いたものを呪文(プロンプト)にするのが難しい時に『Tagger』を使用することで簡単に呪文(プロンプト)を抽出してくれます。

拡張機能『Tagger』のインストール方法

ここで『Tagger』のインストール方法を紹介します。

①「Extensions」タブ→「Install from URL」タブを開きます。

②「URL for extension’s git repository」の欄に下記のURLを入力またはコピペをしてください。

GitHub - picobyte/stable-diffusion-webui-wd14-tagger: Labeling extension for Automatic1111's Web UI

Labeling extension for Automatic1111's Web UI. Contribute to picobyte/stable-diffusion-webui-wd14-tagger development by ...

以前はtoriato版が広く使用されていましたが、2023年7月18日にアーカイブ済み で、
現在は picobyte版が維持・管理されています。
最新環境では、picobyte版をインストールするのが推奨 です。

③Installボタンをクリックし、しばらく待つと下記のようにInstallボタンの下に文字が表示されます。

④Installedタブを開き、stable-diffusion-webui-wd14-taggerがあることを確認してください。

⑤確認が出来たら、Apply and restart UIボタンをクリックして再起動します。

以上が『Tagger』のインストール方法でした。

※画像のURLはtoriatoですが、picobyteと記入されているのが正しいです。

画像から呪文(プロンプト)を生成・抽出できる機能の使い方

ここからは、これまで紹介した画像から呪文（プロンプト）を生成・抽出できる機能の使い方について解説していきます。

『Interrogate CLIP』と『Interrogate DeepBooru』の使い方

『Interrogate CLIP』と『Interrogate DeepBooru』の使い方は同じです。

①Stable Diffusion Web UIを起動して、img2imgタブをクリックします。

②解析したい画像をアップロードします。

③呪文（プロンプト）入力欄の右にあるInterrogate CLIPをクリックします。

④解析が終了するまで少し待つと、呪文（プロンプト）入力欄に、推測した呪文（プロンプト）が表示されます。

『Interrogate DeepBooru』で画像から呪文（プロンプト）を作成する場合は、③の工程でInterrogate CLIPの下にあるInterrogate DeepBooruをクリックしましょう。

拡張機能『Tagger』の使い方

ここからは『Tagger』の使い方について解説していきますが、使用方法はとても簡単です。

『Tagger』をインストールした後は、タブの欄にTaggerタブが新しく追加されていると思います。

「Tagger」のタブが表示されない場合は、Stable Diffusionを終了し再起動してみてください。
それでも表示されない場合、A1111（AUTOMATIC1111版）の仕様変更による非互換（wrap_gradio_gpu_call関連） が原因の可能性があります。
最新版のA1111ではpicobyte版でこの不具合が解消 されていますが、toriato版はすでに未保守 のため、移行をおすすめします。

Taggerタブを開き、画像欄に解析したい画像を入れ、オレンジ色のInterrogate imageボタンをクリックすると解析されます。

画像から呪文(プロンプト)を生成・抽出して画像生成してみた！

ではここからは画像から実際に呪文（プロンプト）を生成・抽出し、それらを使用して画像を生成していきたいと思います。

『Interrogate CLIP』と『Interrogate DeepBooru』で生成した画像の比較

以下の元画像について呪文（プロンプト）を生成・抽出し、画像を生成していきます。

まずは『Interrogate CLIP』で呪文（プロンプト）を解析し、その呪文（プロンプト）を使用して画像を生成してみます。

a woman with green hair and a black top standing in front of a full moon with her hair blowing in the wind, Chizuko Yoshida, luminous, a character portrait, dau-al-set

次に『Interrogate DeepBooru』で呪文（プロンプト）を解析し、その呪文（プロンプト）を使用して画像を生成してみます。

1girl, aurora, bangs, blurry, blush, breasts, cloud, crescent moon, earrings, earth (planet), full moon, galaxy, green eyes, green hair, grin, hair between eyes, jewelry, large breasts, long hair, looking at viewer, moon, moonlight, night, night sky, planet, red moon, ribbed sweater, shooting star, sky, smile, solo, space, star (sky), starry sky, starry sky print, sun, sweater, turtleneck, turtleneck sweater, upper body

今回はアニメ画像を元画像としたため、『Interrogate DeepBooru』で解析した呪文（プロンプト）の方が表情などをより元画像に近づけることができています。

拡張機能『Tagger』を使って生成した画像

では拡張機能である『Tagger』を使用して呪文（プロンプト）を生成・抽出し、同様に画像を作っていきましょう。

1girl, smile, solo, green eyes, sweater, green hair, long hair, moon, breasts, black sweater, upper body, looking at viewer, earrings, jewelry, full moon, bangs, turtleneck, blush, night, large breasts, grin, sky, hair between eyes, night sky, floating hair, teeth, star (sky), turtleneck sweater, ribbed sweater, starry sky, outdoors