画像からプロンプトを生成する方法を徹底解説!誰でも簡単に使える3ツールを紹介 | romptn Magazine

画像からプロンプトを生成する方法を徹底解説!誰でも簡単に使える3ツールを紹介

AI活用

画像生成AIを使っていると「この素敵な画像はどんなプロンプト(呪文)で作られたんだろう?」と思うことはありませんか?実は、既存の画像からプロンプトを抽出する方法がいくつか存在します。この記事では、初心者の方でも簡単に画像からプロンプトを生成・抽出できる方法を詳しく解説します。

参考にしたい画像があるけどプロンプトが分からない、自分では考えつかないような表現を知りたい、以前作った画像のプロンプトを忘れてしまった…そんな時に役立つ「画像からプロンプト生成」のテクニックを身につけましょう!

今回の記事で分かること
  • 画像からプロンプトを生成する3つの主要な方法
  • 抽出したプロンプトの活用方法
  • プロンプト抽出時の注意点
スポンサーリンク

画像からプロンプトを生成する3つの主要な方法

画像からプロンプトを生成する方法は主に以下の3つがあります。

それぞれの特徴や使い方、向いている用途が異なるので、目的に合わせて選びましょう!

  1. Stable Diffusion Web UIの機能を使う方法
  2. ChatGPTなどのAIを使う方法
  3. 専用Webサービスを利用する方法

それぞれのツールで生成されるプロンプトの形式や精度が異なるので、複数の方法を試して比較してみるのも良いでしょう。

①Stable Diffusion Web UIで画像からプロンプトを生成する方法

Stable Diffusion Web UI (AUTOMATIC1111)には、画像からプロンプトを抽出できる機能が標準で搭載されています。主に以下の3つの機能があります。

  • Interrogate CLIP
  • Interrogate DeepBooru
  • Tagger(拡張機能)

これらの機能はそれぞれ特徴が異なり、使い分けることで効果的にプロンプトを抽出できます。

Interrogate CLIPの特徴と使い方

Interrogate CLIPは、画像から連結した文章形式でプロンプトを抽出する機能です。

特徴は、以下の通りです。

  • 抽出されるプロンプトは文章形式
  • 幅広い画像タイプに対応
  • 拡張機能のインストールが不要(標準機能)

使い方は、こちらです。

①Stable Diffusion Web UIを起動して、「img2img」タブをクリックします。

②解析したい画像をアップロードします。

③呪文(プロンプト)入力欄の右にある「Interrogate CLIP」をクリックします。

④解析が終了するまで少し待つと、呪文(プロンプト)入力欄に、推測した呪文(プロンプト)が表示されます。

Interrogate DeepBooruの特徴と使い方

Interrogate DeepBooruは、アニメやイラスト系の画像に特化したプロンプト抽出機能です。

特徴は、以下の通りです。

  • 抽出されるプロンプトはカンマ区切りのタグ形式
  • アニメ・イラスト系の画像に特化している
  • 拡張機能のインストールが不要(標準機能)
  • 「Danbooruタグ」と呼ばれる形式で出力される

使い方は、先ほどご紹介した「Interrogate CLIP」と全く同じです。

『Interrogate DeepBooru』で画像から呪文(プロンプト)を作成する場合は、③の工程で「Interrogate CLIP」の下にある「Interrogate DeepBooru」をクリックしましょう。

Tagger拡張機能の導入と使い方

Taggerは、より詳細なタグを抽出できる拡張機能です。インストールが必要ですが、より細かいプロンプト生成が可能です。

特徴は、以下の通りです。

  • 抽出されるプロンプトはカンマ区切りのタグ形式
  • より詳細なタグを抽出可能
  • 拡張機能のインストールが必要:インストール方法は、こちらの記事で解説しています。

使い方を見てましょう!

①インストール後に追加された「Tagger」タブを開く

②解析したい画像をアップロードし、「Interrogate image」ボタンをクリック

「Ratings and included tags」に抽出されたプロンプトが表示されます!

Fooocusの「Describe」機能を使う方法

Stable Diffusionのフロントエンドとして人気のFooocusにも、画像からプロンプトを生成する「Describe」機能が追加されました。

特徴は、以下の通りです。

  • 使い方がシンプル
  • 写真とアニメ/アート用の2種類のモードがある
  • Stable Diffusion Web UIのインストールが不要

使い方は、こちらです。

①Fooocusを起動して「Input Image」にチェックを入れる

②「Describe」タブを選択

③左側のスペースに画像をドラッグ&ドロップ

④画像の種類に応じて「Photograph」か「Art / Anime」を選択

⑤「Describe this image into Prompt」ボタンをクリック

⑥生成されたプロンプトが表示される

②ChatGPTなどのLLMを使って画像からプロンプトを生成する方法

最新のAIチャットツールを活用して、画像からプロンプトを生成することも可能です。特にChatGPTやGeminiなどの視覚言語モデル(VLM)が便利です。

特徴は、以下の通りです。

  • 詳細で自然な文章形式のプロンプトを生成
  • 特別なソフトウェアのインストールが不要
  • 画像の内容を詳細に理解できる

ここでは、ChatGPTを使った方法をご紹介します。

①ChatGPTにアクセス(GPT-4モデルが必要)

※ChatGPTの登録方法については、下記記事で詳しく解説しています。

②画像をアップロード(入力欄の「+」ボタンかドラッグ&ドロップ)し、以下のようなプロンプトを入力

画像生成AIで利用するプロンプトを200語程度で書いてください。英語訳もつけてください。

③ChatGPTが画像を分析し、適切なプロンプトを生成してくれる

ChatGPTではかなり詳細な文章形式のプロンプトが生成されます!

③専用のWebサービスを利用する方法

画像からプロンプトを生成する専用のWebサービスも多数存在します。インストール不要で手軽に利用できるのが魅力です。

●代表的なサービス

基本的な使い方は、下記の通りです。(今回は、SeaArtの機能を紹介します!)

創作のトップ画面から「画像キーワード摘出」をクリックし、キーワードを抽出したい画像を挿入します。

完了したら、生成をスタートしましょう。

このように、2種類に分けてキーワードを出してくれます!

これらのサービスは無料版と有料版があり、無料版は1日の使用回数に制限がある場合が多いです。

Stable Diffusionの画像生成を最速で学びたいあなたへ!
  • Stable Diffusionの基礎を2時間でマスター!
  • 高スペックPCがない方向けに徹底解説。
  • ControlNetなど、必須級の拡張機能も網羅。
  • 今話題のSDXL、AI動画生成も。
  • 特典として、大人気「おすすめ拡張機能・モデル解説」「プロンプト大全」つき!
\このボタン限定!70%オフキャンペーン実施中!/
70%オフキャンペーン実施中!/

プロンプト抽出方法の比較と使い分け

それぞれの方法には特徴があり、目的や状況に応じて使い分けると効果的です。

方法特徴おすすめの用途
Interrogate CLIP文章形式のプロンプト生成、幅広い画像に対応一般的な写真や画像から概要を把握したい場合
Interrogate
DeepBooru
カンマ区切りのタグ形式、アニメ・イラスト特化アニメやイラスト系の画像から細かい要素を抽出したい場合
Tagger詳細なタグ形式、細かい要素も抽出より多くのタグで詳細に再現したい場合
Fooocus Describeシンプルな操作、写真/アートで使い分け手軽に試したい初心者向け
ChatGPT詳細な文章形式、自然な表現画像の雰囲気や背景なども含めたい場合
専用Webサービスインストール不要、手軽に利用可能PC環境に制約がある場合や試用したい場合

アニメ調の画像の場合は「Interrogate DeepBooru」や「Tagger」写真やリアル調の画像には「Interrogate CLIP」や「ChatGPT」が適しています。複数の方法で抽出したプロンプトを組み合わせるのも効果的です!

プロンプトジェネレーターで画像生成プロンプトの参考に!
  • Stable Diffusionのプロンプトの見本が知りたい
  • 画像生成が思ったようにできない
  • 色々なプロンプトを探したい
など、画像生成AIのプロンプトに関する疑問が解決するかもしれません。

画像からプロンプト生成の具体的な例

実際の画像を使って、各ツールでどのようなプロンプトが生成されるか見てみましょう。

風景写真の場合

風景写真をInterrogate CLIPで解析した場合

a landscape photograph of a mountain range with a lake in the foreground and clouds in the sky, landscape photography, national geographic, a landscape vista, Tomasz Alen Kopera, photorealism

同じ画像をChatGPTで解析した場合

A serene mountain landscape with a crystal-clear alpine lake in the foreground, surrounded by towering snow-capped peaks reflected in the water. The scene is bathed in golden afternoon light with dramatic clouds floating above the mountains. The composition features lush green pine trees bordering the lake shore, creating a perfect frame for this tranquil wilderness scene.

アニメイラストの場合

アニメイラストをInterrogate DeepBooruで解析した場合

1girl, solo, long hair, breasts, looking at viewer, blush, smile, bangs, black hair, red eyes, long sleeves, animal ears, medium breasts, upper body, flower, sidelocks, outdoors, parted lips, japanese clothes, day, wide sleeves, kimono, tree, animal ear fluff, sash, fox ears, obi, floral print, extra ears, white kimono, stairs

同じ画像をTaggerで解析した場合

1girl, solo, fox ears, animal ears, fox girl, smile, red eyes, long hair, black hair, white kimono, japanese clothes, traditional clothes, outdoors, cherry blossoms, spring, blush, fox tail, animal tail

まとめ

いかがでしたでしょうか?

画像からプロンプトを生成・抽出する方法について、Stable Diffusion Web UIの機能や、ChatGPT、専用Webサービスまで幅広くご紹介しました。

この記事で紹介したことをまとめると次のようになります。

  • Stable Diffusion Web UIでは「Interrogate CLIP」「Interrogate DeepBooru」「Tagger拡張機能」の3つの方法がある
  • Fooocusの「Describe」機能を使えば簡単に画像からプロンプトを生成できる
  • ChatGPTなどの視覚言語モデル(VLM)も画像からプロンプト生成に活用できる
  • アニメ系の画像はDeepBooruやTagger、風景写真はCLIPやChatGPTなど、目的に応じて使い分けるのがコツ
  • 抽出したプロンプトはそのまま使うだけでなく、編集・改良して自分好みの画像生成に活用できる

気に入った画像のプロンプトを知りたい方や、プロンプトの書き方を学びたい初心者の方にとって、かなり助けになる情報だったのではないでしょうか?

ぜひ、これらのツールを使いこなして、画像生成AIの可能性をさらに広げてみてください!