「AIによる画像生成がもっと手軽に、もっと自由にできたら…」と思ったことはありませんか?
「Stable Diffusion」という言葉を聞いたことがあるでしょうか?
この記事では、2022年に、Stability AIによって開発された、話題の画像生成AI「Stable Diffusion」について、その特徴や使い方、商用利用の可能性について徹底的に解説しています。
この記事が「Stable Diffusion」の理解を深めるための貴重な情報源となれば幸いです!
画像生成AI「Stable Diffusion(ステーブルディフュージョン)」とは?
「Stable Diffusion」は、2022年にミュンヘン大学のCompVisグループ、Runway、そしてStability AIによって開発されたテキストから画像を生成するAIモデルです。
「Stable Diffusion」は、テキストの説明に基づいて詳細な画像を作成することを目的としており、例えば「宇宙飛行士が馬に乗っている」というテキストを入力すると、そのシーンを描いた画像を生成してくれます。
また、「Stable Diffusion」はオープンソースで公開されており、一般の人々も簡単にアクセスして使用できるようになっています。
このように、「Stable Diffusion」はテキストに基づいて多様な画像を生成することができる、革新的であると同時に初心者でも簡単に利用ができるツールです。
※さらに詳しい情報を知りたい方は、下記の記事をご覧ください。「Stable Diffusion」の技術的な側面や、その応用例についてより深く掘り下げて解説しています!
他の画像生成AI(Midjourneyなど)との違い
「Stable Diffusion」、画像生成の分野で注目されていますが、他の類似ツール、特に「Midjourney」と「DALL-E 3」と比較すると、いくつかの違いがあります。
下記が、簡単な比較表になります。
さらなる違いとして、以下のようなものが挙げられます。
・「Stable Diffusion」は、他のAI画像生成ツールと比べて、特にアクセシビリティと使用条件の面で異なる特徴を持っている。
「Stable Diffusion」はオープンソースであり、一般のハードウェアで実行可能であるため、多くの人々にとってアクセスしやすくなっている。
さらに、「Stable Diffusion」は生成された画像に対する著作権を主張せず、ユーザーが画像を商用利用する権利を提供している。
・これに対して、「Midjourney」と「DALL-E 3」は、より制限されたアクセスや使用条件を持っている可能性がある。
・また、「DALL-E 3」は、OpenAIのAPIを通じてのみアクセス可能であり、一般のユーザーが直接モデルを操作することはできない。
・商用利用に関しては、「Midjourney」や「DALL-E」は「Stable Diffusion」と比べてより厳格なガイドラインを設けている。
したがって、「Stable Diffusion」は、他のAI画像生成ツールと比較して、よりアクセスしやすく、商用利用においても柔軟性が高いという特徴があります。
他の画像生成AIとの違いまとめ
- 「Stable Diffusion」はオープンソースであり、一般のハードウェアで実行可能。
- 「Stable Diffusion」は生成された画像の著作権を主張せず、商用利用を許可。
- 「DALL-E 3」はOpenAIのAPIを通じてのみアクセス可能。
- 「Midjourney」と「DALL-E 3」は商用利用に関してより厳格なガイドラインを設ける可能性がある。
※Stable DiffusionとMidjourneyの違いについては、以下の記事で詳しく解説しています。
Stable Diffusionでできること
「Stable Diffusion」は、テキストから画像を生成するだけでなく、既存の画像を変換したり、ロゴやアイコンを作成したり、画像の編集やレタッチを行ったり、さらには動画を生成することも可能です。
①テキストから画像を生成
「txt2img」は、プロンプトとネガティブプロンプトというテキストに基づいて、新しい画像を生成してくれます。
②画像から画像を生成
「img2img」は、既存の画像に基づいて、新しいバージョンの画像を生成してくれます。
※詳しい使い方は、以下の記事で解説しています。
③ロゴ・アイコンの作成
プロンプト(呪文)を指定することで、オリジナルのロゴやアイコンを作成できます。
犬のアイコン画像例
※ロゴ・アイコンについてもっと詳しく知りたい方は、以下の記事をご覧ください。
④画像編集とレタッチ
「inpaint」などを使用することで、画像の一部を修正したり、全体のスタイルを変更したりできます。
※詳しい使い方は、以下の記事で解説しています。
⑤動画の生成
拡張機能の1つである「SD-CN-Animation」などを使うことで、テキストや画像から短い動画を生成することも可能です。
「SD-CN-Animation」の使い方をもっと詳しく知りたい方は、下記の記事をご覧ください。
- Stable Diffusionのプロンプトの見本が知りたい
- 画像生成が思ったようにできない
- 色々なプロンプトを探したい
Stable Diffusionの利用方法
「Stable Diffusion」を利用するには、Google Colab(仮想環境)とPC(ローカル環境)の2つの方法があります。
以下に、それぞれの方法のメリットとデメリットを簡単にまとめました。
利用方法 | メリット | デメリット |
---|---|---|
Google Colab(仮想環境) | ・手軽に使える ・低スペックPCでもOK ・OSによる違いがない ・立ち上げが楽 | ・枚数制限・など自由度が低い ・ |
PC(ローカル環境) | ・無料で無制限の利用が可能 ・カスタマイズが可能 | ・立ち上げが面倒くさい ・高スペックPCが必須 |
Google Colab(仮想環境)とPC(ローカル環境)での利用方法ついて、さらに詳細な情報を知りたい方は以下の記事をご覧ください。
Stable Diffusionを手軽に無料で使えるサービス
「Stable Diffusion」を使って画像を生成するには、いくつかのWEBアプリやスマホアプリでも利用することができるようになっています。
以下で紹介するアプリは特に使いやすく、簡単に「Stable Diffusion」を体験できるため、初心者の方にもおすすめです。
- Stable Diffusion Online
- HuggingFace
- DreamStudio
- MageSpace
①Stable Diffusion Online
「Stable Diffusion Online」は、誰でも簡単にAI画像生成を楽しめる無料の画像生成サイトです。
アカウントの登録は不要で、ウェブサイトにアクセスするだけで画像を生成できます。初心者でも安心して使えるような、シンプルな操作性が特徴です。
Stable Diffusion Online特徴
- プロンプト(指示文)は英語で入力し、スタイルを選択して画像を生成します。
- 「ControlNet」という拡張機能を使って、線画情報を参照して画像を生成することも可能です。
- 画像生成の詳細設定はできませんが、初心者には使いやすい機能が揃っています。
※詳しい使い方は、以下の記事で解説しています。
HuggingFace
「HuggingFace」は、ログイン不要で簡単にAI画像を生成できるウェブサイトです。
このサイトはAIのコミュニティーサイトとしても知られており、多くのモデルやデータセットが公開されています。これによって、誰でもダウンロードして様々なカスタマイズが可能です。
HuggingFaceの特徴
- ユーザーは、プロンプトを入力するだけで簡単に画像を生成できます。
- Stable Diffusion以外のモデルもダウンロードできるため、多様な画像生成が楽しめます。
Dream Studio
「Dream Studio」は、「Stable Diffusion」を活用した画像生成AIの中でも特に知名度が高いサービスです。
「Dream Studio」は月額制の料金プランがなく、画像生成1枚ごとにクレジットを消費するタイプのサービスです。アカウント作成時には25クレジットが付与され、その範囲内で無料で画像を生成することが可能です。
Dream Studioの特徴
- 画像生成には、Googleアカウント、Discordアカウント、またはメールアドレスでログインする必要があります。
- 画像のスタイルを選択し、プロンプトを入力して画像を生成します。日本語でも英語でも指示に従って画像が生成されます。
Mage.space
「Mage.space」は、無料でStable Diffusionのモデルを使って画像生成ができるウェブサイトです。
特定のモデル(SDXL)は無料で使うことができる上に、アカウント登録なしで画像を生成できます。課金すると、より多くのモデルを使って様々なタイプの画像を生成できます。
Mage.spaceの特徴
- 無料ユーザーでも画像生成数に制限はなく、いくらでも画像を生成できます。
- 有料版では136ものモデルが利用可能で、月額15ドルの課金が必要です。
- サイトは英語ですが、ブラウザの翻訳機能を使って日本語で使うことができます。
これらのアプリを使えば、「Stable Diffusion」で簡単に画像を生成することができます。
※詳しい使い方は、以下の記事で解説しています。
Stable Diffusionで画像生成する方法
ここでは、これまでに紹介した無料サービスの使い方を簡単に解説します。
Stable Diffusion Online
まず、こちらのリンク先にアクセスしましょう。
アカウント登録は必要なく、Webサイトにアクセスし画面を下にスクロールすると上記のようなテキストボックスが現れます。
テキストボックスにある「Enter your prompt」の部分に簡単な英語を入力し、「Generate image」をクリックすると10~30秒ほどで画像が生成されます。
例えば、「Yokohama baybridge beautiful view」と入力すると
その指示の通りに、夜の横浜の美しいベイブリッジが描かれた高画質な写真を簡単に生成させることができました。
HuggingFace
①まず、以下のリンクにアクセスすると、Stable Diffusion2.1のデモ版を利用して画像生成をすることができます!
②プロンプト・ネガティブプロンプトを入力して、Generateボタンを押すだけです!
③すると、このように画像が3枚生成されます。
あまりクオリティが高いという印象ではありませんが、10秒程度で簡単に画像が生成できるので、とりあえずどんなものかと試してみたい方にはオススメです!
Dream Studio
①『Get started』をクリック
②利用規約を確認して、同意したら『Accept』をクリック
③『Continue with Google』を選択
④Googleアカウントを確認したら『Accept』をクリック
そうすると、メインメニューが開きます。
スタイルは以下の16種類となっています。
呪文(プロンプト)・ネガティブプロンプトの入力欄をマウスオンにすると、右上にマークが表示されて、クリックごとに呪文(プロンプト)例が変わっていきます。
- “Upload image”:既存の画像をもとに画像生成する欄
- “Setting”:縦横比
- “Image count”:枚数設定
- ”Advanced”:詳細設定(Prompt strengthとシード値以外は設定可能)
⑤最後に『Dream』を押して、画像を生成する
今回の呪文(プロンプト)は、以下で指定しました。
Bowl of hearty chili with tender chunks of beef, rich tomato sauce, and a mix of spices, topped with grated cheddar cheese and green onions, high detail, focused on texture and heat, comfort food
完成した画像がこちらです。
非常にクオリティの高い画像が生成できました!
解像度などの設定にもよりますが、20から200枚ほど画像生成できるようなので、ぜひ試してみてください!
Mage.space
①GoogleアカウントまたはTwitter(X)アカウントでログイン
②下の方にある『Seclet Models』をクリックすると、モデル一覧が表示されるので、使用可能モデルを確認する。
無料版で使えるのは、「Stable Diffusion v1.5」と「Stable Diffusion v2.1」のモデルのみで、ほかのモデルを使用するには有料版への加入が必要です。
③ここから画像生成をしていきますが、呪文(プロンプト)にまだ不慣れな方は、ほかの方の作品を見ることをオススメします。
上の方にある「explone」でほかの方の作品が一覧で表示されます。
スタイル別で表示されているので、好きなスタイルに絞ってみるのも楽しいですよ!
④好きな画像が見つかったら選択して、「Remix」をクリック
⑤詳細設定が表示されるので、それぞれカスタマイズする
今回は以下の参考画像の呪文(プロンプト)で画像を生成します。
Fantasy world, Ancient bell tower at the edge of the world
完成した画像がこちらです。
こちらも非常にハイクオリティな画像が生成されましたね!
※さらに詳しい情報や各アプリの使い方については、下記の記事をご覧ください。この記事では、「Stable Diffusion」で画像を生成するためのおすすめのWEBアプリやスマホアプリを詳しく紹介しています。
【AUTOMATIC1111版】Stable Diffusionとは?
Stable Diffusionを利用する環境としてGoogle ColabやPaperSpaceなどの仮想環境・PC上で行うローカル環境などがあります。
その利用環境の中でも、特に【AUTOMATIC1111版】Stable Diffusionが注目を集めているのです。
このAUTOMATIC1111(オートマチックイレブン・イレブン)版Stable Diffusionは、プログラマーのAUTOMATIC1111さんによって開発されました。特徴としては、Gradioライブラリを使用しており、ブラウザを通じて簡単に「Stable Diffusion」を利用できる点が挙げられます。
「通常のStable Diffusionとの違いって何?」と思う方もいらっしゃると思いますが、簡単にまとめると以下の図表のようになります!
つまり、AUTOMATIC1111版Stable Diffusionは、通常のStable Diffusionをより簡単な操作性にしつつ、便利な機能を加えたものという認識になります。
1つ注意が必要なのですが、AUTOMATIC1111版Stable DiffusionはGoogle Colabでの利用に制限されています。
※AUTOMATIC1111版Stable Diffusionを使ってみたい方は、以下のGoogle ColabでStable Diffusionを利用する方法を参考にしながら立ち上げてみてくださいね。
Stable Diffusionで生成した画像の商用利用について
「Stable Diffusion」は基本的に商用利用が可能ですが、モデルによっては商用利用ができない場合もあります。
「Stable Diffusion」のライセンスは、生成した画像に対する権利を主張しないとしています。しかし、商用利用不可のモデルを使用した場合や、商用利用不可の画像を読み込んだ場合は、商用利用が認められないことがあります。
例えば、商用利用不可のモデルを使用して画像を生成した場合、その画像は商用目的で使用することはできません。また、著作権侵害に当たる可能性のある画像を「img2img」モードで使用した場合も、商用利用が認められないことがあります。
「Stable Diffusion」で生成した画像を商用利用する際は、使用するモデルのライセンスや著作権の問題に注意が必要です。
画像の商用利用について詳しい情報や具体的なケースについては、下記の記事をご覧ください。「Stable Diffusion」での商用利用の可否、ライセンスの確認方法、著作権問題などについて詳しく解説しています。
Stable Diffusionに関するQ&A
では最後に、Stable Diffusionに関してよくある質問をいくつかまとめてみましたので、是非参考にしてみてください。
①日本語でStable Diffusionを使うことはできる?
「Stable Diffusion」は英語表記ですが、拡張機能を使うことで下記のように日本語で使うことができます。
詳しい日本語化の方法については、下記の記事ををご覧ください。
②Stable Diffusionは完全に無料?
「Stable Diffusion」は基本的に無料で利用できますが、利用方法によっては有料になることがあります。
ローカル環境での利用は無料ですが、Google Colaboratoryで利用する場合は、無料で使うこともできますが、一部のサービスでは利用制限があるため、有料プランへのアップグレードが必要です。
また、オンラインで利用できるツールには無料と有料のものがあります。
さらに詳しい情報や無料で利用できるサイト、有料サービスの内容については、下記の記事ご覧ください。「Stable Diffusion」の料金サービスの内容や無料で使えるサイトを詳しく解説しています。
③どの程度細かい指示ができる?画像生成のコツは?
「Stable Diffusion」では、プロンプト(呪文)を使って細かい指示を出すことができます。これにより、リアルで高品質な画像を生成することが可能です。
プロンプトのコツとしては、単語の順番や数、強調の方法などが重要です。また、ネガティブプロンプトを使って除外したい要素を指定することもできます。
例えば、単語の順番を気にすることで画像の優先度を変えたり、75個以下の単語を使って明確な指示を出すことができます。
さらに詳しいプロンプトのコツや具体的な例については、下記の記事をご覧ください。「Stable Diffusion」でリアルな画像を生成するためのプロンプトのコツを12個に分けて詳しく解説しています。
④Stable Diffusionを利用するのに必要なPCスペックは?
「Stable Diffusion」を利用するためには、特定のPCスペックが必要です。
上記画像にありますように、「Stable Diffusion」は高度な画像処理を行うため、特にGPU(グラフィック処理ユニット)の性能が重要です。VRAMが12GB以上のGPUが推奨されています。
また、メモリは16GB以上、ストレージは512GB以上(できれば1TB)が望ましいです。OSはWindows(64bit)が推奨されています。
さらに詳しいスペックの要件やおすすめのPCについては、下記の記事をご覧ください。「Stable Diffusion」の利用に適したPCのスペックやおすすめのPCを詳しく紹介しています。
まとめ
いかがでしたでしょうか?
「Stable Diffusion」の基礎から応用について解説してきました。
今回のポイントをまとめると、以下のようになります。
- Stable Diffusionはテキストから画像を生成するAIツール。
- オープンソースで、一般に広くアクセス可能。
- Stable Diffusionは、MidjourneyやDALL・E3などの他の画像生成ツールよりも利便性が良く商用利用に関しても柔軟性が高いため人気が集まっている。
- Stable Diffusionで出来ること
- テキストから画像を生成する
- 画像から画像を生成する
- ロゴ・アイコンの作成
- 画像編集とレタッチ
- 動画の生成
- Stable Diffusionの利用方法
- Google ColabやPaperSpaceなどの仮想環境→低スペックPC・初心者向け
- 自身のPCで立ち上げるローカル環境→高スペックPC・PCに慣れている方向け
- Stable Diffusionを手軽に無料で使えるサービス4選
- Stable Diffusion Online
- HuggingFace
- DreamStudio
- Mage.space
- 【AUTOMATIC1111版】Stable Diffusionとは、プログラマーのAUTOMATIC1111さんによって開発されたStable Diffusionのカスタムバージョン
- 通常のStable Diffusionよりも操作しやすく、追加機能も備わっている
- Stable Diffusionは基本的商用利用可能であるが、商用利用不可のモデルを使用した場合や商用利用不可の画像を読み込んだ場合は著作権侵害にあたる
- Stable Diffusionに関するよくある質問
- ①日本語は使える?→使える
- ②完全に無料?→一部有料
- ③画像生成のコツは?→プロンプト次第なので、単語の順番や数・強調の方法に気を付けることが大事
- PCのスペックは?→VRAMが12GB以上のGPUを持ったPCがおすすめ
この記事を通じて、「Stable Diffusion」の基本的な特徴や使い方、さらには商用利用などについて理解を深めることができましたでしょうか?
画像生成AIの世界は日々進化しており、「Stable Diffusion」はその代表的なツールの1つです。
「Stable Diffusion」を活用することで、趣味やビジネスなどさまざまな側面においてアイディアをもたらしてくれるでしょう。
さらに、画像生成AIに関する他の興味深いトピックやツールについても知りたい場合は、当サイトの関連記事もぜひご覧いただければ幸いです。
- Stable Diffusionのプロンプトの見本が知りたい
- 画像生成が思ったようにできない
- 色々なプロンプトを探したい