【最新版】ChatGPT(GPT4.0V)の画像認識・画像読み込みの使い方!APIは?

ChatGPT

ChatGPT(GPT4.0V)の公開で話題になった、画像認識機能(画像読み込み、画像入力、画像アップロード)。

冷蔵庫の中身の写真をチャットに送ってアップロードするだけで、画像を分析して中身から調理法まで教えてくれると話題です。

この記事では、ChatGPT(GPT4.0V)の画像認識機能(画像読み込み、画像入力、画像アップロード、以下画像認識と表記)搭載のプラグインの使い方とAPIを使って画像認識できるのかについて解説しているのでぜひ最後までご覧ください。

スポンサーリンク

ChatGPTで画像アップロード・画像認識ができるようになった

ついにChatGPTではプラグインを使用しなくても、入力欄から画像をアップロードして画像の認識ができるChatGPT(GPT4.0V)が導入されました。

ChatGPTの公式スマホアプリでは無料で画像アップロードができるようになり、PC版では課金版のChatGPT4.0のユーザーで利用が可能になっています。

これまでも、code interpreterなどのプラグインを利用することで画像をアップロードして画像認識をすることはできていました。

しかし、今回のChatGPT(GPT4.0V)では赤く囲んでいる所からファイルに飛び、画像を選択するだけで画像認識が可能となりました。

また、アップロードする際に注意することは一つのファイルあたり512MBまでとなっています。

ChatGPTで画像生成ができるようになった

2023年10月には、ついに画像生成ができるようになりました。

ChatGPTでで提供されているのはOpenAIの提供している画像生成ツール「DALL-E 3」による画像の生成です。

生成する画像の枚数については指定がなければ2枚、指示をすれば

2024年1月現在ではPlus版とEnterprise版に加入している、課金しているユーザーのみが使用することができます。

使い方はとてもシンプルです。

まずは左の欄にある赤枠のDALL Eをクリックします。

すると入力画面になるので、ここにプロンプト(生成したい画像の指示文)を以下のように入力します。

送信すると、以下のように画像の説明と一緒にイメージしていた画像を出力してくれます。

生成した画像は一枚ずつ保存することも可能です。以下が生成した画像です。

そのほかの画像生成サイトのStable diffusionのように環境構築や詳しいプロンプトも不要でこのような質の高い画像を生成してくれるので、ぜひ活用しましょう。

ChatGPTで実際に画像アップロードをして画像認識をやってみた

以下では実際に画像をChatGPTにアップロードして画像認識をしている様子を解説していきます。

入力者
入力者

アップロードボタンをクリックしファイルから画像を選択

以下のように指示文を入力
「アップロードした画像について解説してください。」

すると以下のように画像について解説をしてくれます。

画像には、お皿に盛り付けられたトマトベースのスパゲッティが写っています。パスタはしっかりとソースに絡められており、赤いトマトのピースが目につきます。また、緑のハーブ(おそらくバジル)も加えられていて、色のアクセントになっています。トマトソースは光沢があり、パスタを潤いのある見た目にしています。スパゲッティの上には、おそらく黒コショウが振りかけられていて、風味をプラスしているでしょう。

お皿は白色でエレガントな花模様が施されており、料理を一層引き立てています。背景には、グレーの布と木製のフォークが置かれており、ナチュラルで落ち着いた雰囲気を作り出しています。このような盛り付けは、シンプルながらも洗練された食事のシーンを思わせます。

このように単に見た目について説明するだけでなく、風味についても解説してくれています。

また料理であるスパゲッティに目がいきがちですが、GPT4Vではお皿についても解説してくれており、細かい部分も漏れがなく画像の認識と解説を行ってくれます。

しかし、GPT4Vの機能はこれだけではありません。

以下では画像認識をして画像の解説以外の活用方法について解説していきます。

ChatGPT(GPT4.0V)の画像認識の活用方法

これまでは画像の解説だけでしたが、以下ではより生活を効率化できるような具体的な使い方を説明していきます。

ChatGPT(GPT4.0V)の画像認識の活用方法①:画像からレシピを聞き出す

それでは画像解説をしてくれた後に以下のように指示文を入力してこのスパゲッティのレシピを教えてもらいましょう。

入力者
入力者

このスパゲッティのレシピを初心者でも分かるように簡単に解説して

すると以下のようにレシピを詳しく解説してくれます。

このように画像をアップロードして画像についての解説をするだけでなく、料理の画像からレシピも生成することができます。

ChatGPT(GPT4.0V)の画像認識の活用方法①:画像からカラーパレットを聞く

次に画像を元に画像に使われているカラーバリエーションをChatGPTに聞いてみましょう。

指示文は以下の通りです。

入力者
入力者

アップロードした画像の色をカラーパレットで出力してください

すると以下のようにカラーパレットを出力してくれます。

GPT4Vのこの技術を使えば、資料作成で色調に困ったときでも、参考にしたい画像や雰囲気を元にカラーパレットを生成してもらい、統一した色の資料を作成できるようになるでしょう。

ChatGPT OpenAI Vision API とは

では、APIを利用して画像認識することはできないのでしょうか?

結論、Vision APIは、画像から出力したURLを指定する、Base64でエンコードされた画像を直接リクエストに含めることで、APIによる画像認識が可能となります。

しかし一部制限があり、特定の物体の位置について詳細な質問に答えることは最適化されていない、画像のアップロードサイズは20MBまでとなっています。

ChatGPTの画像認識についてのまとめ

いかがだったでしょうか?

この記事をまとめると、

  • ChatGPTのGPT4Vの画像認識機能(画像読み込み、画像入力、画像アップロード)は現在公開済みである。
  • DALLE3は画像生成初心者でも簡単に画像生成ができる
  • ChatGPTのGPT4Vの画像認識では画像の解説ができる
  • ChatGPTのGPT4Vでは、画像認識からレシピを出力させたり、カラーパレットを出力させることができる
  • ChatGPTのAPIについて現在は画像認識機能はなく、公式リリースを待つのが良さそう。

でした。

今後さらに画像認識の応用技術開発が進み、デモの使い方ができるようになるのが待ち遠しいですね!

Romptnでは他にもAIに関する記事を執筆していますので、ぜひご覧ください。

romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
ChatGPT
スポンサーリンク
romptn Magazine