画像生成AI「Midjourney」で学習させることはできる?

Midjourney

こんな絵を描こうとすると自分にはとても不可能ですが、Midjourneyを使うことで簡単に描けてしまします。

画像生成AIは様々な画像を学習し、私たちの望む画像を提供してくれくれます。

Midjourneyにおいてその”学習”とは一体どのようなものなのでしょうか?

スポンサーリンク

Midjourneyとは?

Midjourneyは、テキストの説明から現実的で詳細な画像を生成する最先端のAIプログラムです。このプログラムは、デビッド・ホルツが率いる研究者チームと、GitHubのCEO、ナット・フリードマン、アップルのプロセッサエンジニア、ジム・ケラーを含む他のいくつかの著名人によって開発されました。

Midjourneyは、強力なAI技術を活用して、さまざまなアプリケーションに適した現実的で魅力的な画像を作成します。このプログラムは、写真やデジタルアートの作成スキルを必要とせずに、リアルな画像を生成するAIの可能性を紹介するように設計されています。しかし、画像生成モデルは人間に取って代わるのではなく、私たち人間の能力を増強するように設計されていることは注目に値する所です。

AI搭載の画像生成装置は、オープンベータプログラムを通じて、2022年7月12日に正式に一般公開されました。それ以来、この「Midjourney」は、プログラムが利用可能なDiscordで1400万人以上のコミュニティメンバーを獲得しています。

ユーザーは、生成したい内容のテキストをプロンプトとしてMidjourneyに提供することで、画像を作成する事ができます。Midjourneyは、最大2048×1280ピクセルの幅広い解像度で画像を作成できるため、ユーザーはデバイスに関係なく画像生成を楽しむことができます。

「Midjourney」の使い方

「Midjourney」はチャットアプリ「Discord」を通して利用します。

その高品質な画像とスマートフォンからでも利用できる利便性が多くのユーザーに指示されています。

使ってみたい方は下記記事を参考にして「Midjourney」のコミュニティーに参加してください。

Midjourneyの学習データはどのようなものか?

ほとんどの競合他社とは異なり、Midjourneyは独立した自己資金によるプロジェクトであり、開発はクローズドソースです。その結果、その開発の正確な詳細はかなり曖昧なままです。

Midjourneyの大規模な言語モデル(LLM)は、画像の膨大なデータセットと対応するテキスト説明で訓練されています。したがって、ユーザーがプログラムにプロンプトを与えると、その知識を使用して単語やフレーズを特定の視覚的概念に関連付けます。

LLMは、テキストに関連付けることを学んだすべての画像をランダムにサンプリングすることで、このプロセスを完了しました。その結果、プロンプトに一致する画像を生成できます。

MidjourneyのLLMのトレーニングに使用されるデータセットには、インターネット上の書籍、記事、ウェブサイトからスクレイピングされたテキストと画像が含まれています。MidjourneyのようなAI画像生成プログラムのトレーニングに使用される最も人気のあるデータセットの1つは、Microsoft Common Objects in Context(COCO)データセットです。

このデータセットには、約80のオブジェクトカテゴリ、コンセプト、シーンをカバーする33万以上の画像と250万のキャプションが含まれています。その他の一般的なトレーニングデータセットには、108,000以上の画像と400万のオブジェクトサンプルを含むビジュアルゲノムデータセット、および31,000以上の画像と158,000以上のテキスト説明を含むFlickr30kデータセットが含まれます。

生成されたAI画像の精度は、多くの場合、プログラムのトレーニングに使用されるデータセットの品質と多様性によって決定されます。Midjourneyは、さまざまなソースからの多様な画像と関連テキストで構成されるトレーニングデータを活用することで、テキストプロンプトに合った超現実的な画像を生成することができます。

「Midjourney」でユーザー自身が学習させることは可能か?

例えば同じ画像生成AIの中でも「Stable diffusion」はオープンソースとして公開されておりその機能の中にはデフォルトでデータ作成機能が備わっています。

モデルデータやLora、あるいはembeddingと呼ばれる補助的な学習データをユーザー自身が作成できるようなっています。

さらにはデータ学習をより詳細に設定できるような拡張機能がHugging FaceやGit Hub上に無料で公開されています。

これにより様々なコミュニティー、例えばCIVITAIなどではユーザー自身が作成したStable diffusion用の学習データが数多く公開されAI画像生成の可能性を大きく広げる動きとなっています。

一方で「Midjourney」は有償のAI画像生成サービスとして展開されており、先述のとおり開発はクローズドソースです。

ユーザー自身が学習データを作成する機能は実施されていませんし、今後そのような機能が追加されるとの情報も今の所発表されていません。

【結論】Midjourneyで学習させることは不可能

ですが、Midjourneyは画像生成AIとしては現在最もクオリティーの高いサービスの一つです。

画像内にテキストを入れ込む機能など他のサービスに無い素晴らしい機能も有しています。

また、特定のキャラクターや画風に寄せるためにLoraやEmbeddingをユーザー自身が指定し画像を生成する機能はありませんが、有名アーティストの画風や特定のキャラクターの再現がプロントのみで再現できていることから、自動的に補助的なデータが適用されているものと推測されます。

そしてMidjourneyには画像を元にあたらに画像を生成するイメージトプロンプト機能や、複数の画像から新たに画像を生成するコマンド「/blend」などを使用することにより、特定のキャラクターに類似した画像を生成することも可能になっています。

既に画像生成AIとしては十分すぎるほどの機能を有しています。

Midjourneyで思い通りの画像を生成するコツ!

基本的にMidjourneyでは、描きたいものをより具体的に説明するシンプルで短いプロンプトが推奨されてきました。

しかしながら最新実写系モデルMidjourneyV6ではより詳細なプロンプト渡しても破綻することなく画像を生成してくれます。

※Midjourney使用のコツはこちらを参考にしてください。

まとめ

いかがでしたでしょうか?

画像生成AI「Midjourney」で学習させることはできる?について解説してきました。

今回のポイントをまとめると、以下のようになります。

  • Midjourneyで学習させることは不可能
  • しかし画像生成AIとしてはとても優秀

Midjourneyでユーザー自身が学習データを作成することは不可能です。

ですがしばしばユーザーに対するアンケートが行われたり、コマンド「/feedback」を使って要望を送る事はできます。

学習データの自作は楽しい面もありますが、「沼」に沈む事もあります。

Midjourneyは有料サービスですのでそういった面とは無縁のまま楽しみたいものです。