【最新版】ChatGPT(GPT4.0V)の画像認識・画像読み込みの使い方!APIは? | romptn Magazine

【最新版】ChatGPT(GPT4.0V)の画像認識・画像読み込みの使い方!APIは?

ChatGPT

ChatGPT(GPT4.0V)の公開で話題になった、画像認識機能(画像読み込み、画像入力、画像アップロード)

冷蔵庫の中身の写真をチャットに送ってアップロードするだけで、画像を分析して中身から調理法まで教えてくれると話題です。

この記事では、ChatGPT(GPT4.0V)の画像認識機能(画像読み込み、画像入力、画像アップロード、以下画像認識と表記)搭載のプラグインの使い方とAPIを使って画像認識できるのかについて解説しているのでぜひ最後までご覧ください。

※2024年5月13日に、ChatGPTの新しいLLM「GPT-4o(オムニ)」が登場しました!こちらの新モデルでは、日本語の画像認識機能が対応可能になっています。

以下の記事で詳しい概要や使い方について解説していますので、合わせてチェックしてみてください。

スポンサーリンク

【2023年9月】ChatGPTで画像アップロード・画像認識ができるように!

ついにChatGPTではプラグインを使用しなくても、入力欄から画像をアップロードして画像の認識ができるChatGPT(GPT4.0V)が導入されました。

Vとは「Vision」の略だそうで、人間の目のように画像認識が可能であることを意味しています。

ChatGPTの公式スマホアプリでは無料で画像アップロードができるようになり、PC版では課金版のChatGPT4.0のユーザーで利用が可能になっています。

これまでも、code interpreterなどのプラグインを利用することで画像をアップロードして画像認識をすることはできていました。

しかし、今回のChatGPT(GPT4.0V)では赤く囲んでいる所からファイルに飛び、画像を選択するだけで画像認識が可能となりました。

また、アップロードする際に注意することは一つのファイルあたり512MBまでとなっています。

※ChatGPTの基本的な使い方については、以下の記事で解説しています!

【2023年10月】ChatGPTで画像生成ができるように!

2023年10月には、ついに画像生成ができるようになりました。ChatGPTでで提供されているのはOpenAIの提供している画像生成ツール「DALL-E 3」による画像の生成です。

生成する画像の枚数については指定がなければ2枚、指示をすれば

2024年5月現在ではPlus版とEnterprise版に加入している、課金しているユーザーのみが使用することができます。

使い方はとてもシンプルです。

入力画面にプロンプト(生成したい画像の指示文)を入力するだけです。

プロンプトは日本語でも大丈夫ですが、英語の方がクオリティーが上がります。

生成した画像は右上の「ダウンロードボタン」から保存することも可能です。以下が生成した画像です。

そのほかの画像生成サイトのStable diffusionのように環境構築や詳しいプロンプトも不要でこのような質の高い画像を生成してくれるので、ぜひ活用しましょう。

※「DALL-E3」の詳しい使い方については、以下の記事で解説しています!

ChatGPTで実際に画像アップロードをして画像認識をやってみた

以下では実際に画像をChatGPTにアップロードして画像認識をしている様子を解説していきます。

入力者
入力者

アップロードボタンをクリックしファイルから画像を選択

以下のように指示文を入力してみます。

アップロードした画像について解説してください。

すると以下のように画像について解説をしてくれます。

画像には、お皿に盛り付けられたトマトベースのスパゲッティが写っています。パスタはしっかりとソースに絡められており、赤いトマトのピースが目につきます。また、緑のハーブ(おそらくバジル)も加えられていて、色のアクセントになっています。トマトソースは光沢があり、パスタを潤いのある見た目にしています。スパゲッティの上には、おそらく黒コショウが振りかけられていて、風味をプラスしているでしょう。

お皿は白色でエレガントな花模様が施されており、料理を一層引き立てています。背景には、グレーの布と木製のフォークが置かれており、ナチュラルで落ち着いた雰囲気を作り出しています。このような盛り付けは、シンプルながらも洗練された食事のシーンを思わせます。

このように単に見た目について説明するだけでなく、風味についても解説してくれています。

また料理であるスパゲッティに目がいきがちですが、GPT4-Vではお皿についても解説してくれており、細かい部分も漏れがなく画像の認識と解説を行ってくれます。

【2024/05/26追記】GPT-4Vで日本語の画像認識が可能に!

2024年5月の大型アップデートにより、GPT-4Vで日本語の画像認識が可能になりました。

これまでは英語の認識が得意で日本語の認識は苦手だったようですが、早速実力を見てみましょう!

以下のChatGPTの利用規約のスクショ画像を翻訳してもらいました。

結果がこちらです!

しっかり認識できていますね!今回のアップデートでかなり能力が上がったことが分かります。

しかし、GPT4-Vの機能はこれだけではありません。

以下では画像認識をして画像の解説以外の活用方法について解説していきます。

ChatGPT(GPT4-V)の画像認識の活用方法

これまでは画像の解説だけでしたが、以下ではより生活を効率化できるような具体的な使い方を説明していきます。

活用方法①:画像からレシピを聞き出す

それでは画像解説をしてくれた後に以下のように指示文を入力してこのスパゲッティのレシピを教えてもらいましょう。

入力者
入力者

このスパゲッティのレシピを初心者でも分かるように簡単に解説して

すると以下のようにレシピを詳しく解説してくれます。

このように画像をアップロードして画像についての解説をするだけでなく、料理の画像からレシピも生成することができます。

活用方法②:画像からカラーパレットを聞く

次に画像を元に画像に使われているカラーバリエーションをChatGPTに聞いてみましょう。

指示文は以下の通りです。

入力者
入力者

アップロードした画像の色をカラーパレットで出力してください

すると以下のようにカラーパレットを出力してくれます。

GPT4-Vのこの技術を使えば、資料作成で色調に困ったときでも、参考にしたい画像や雰囲気を元にカラーパレットを生成してもらい、統一した色の資料を作成できるようになるでしょう。

ChatGPTの『OpenAI Vision API』とは?

では、APIを利用して画像認識することはできないのでしょうか?

結論、Vision APIは、画像から出力したURLを指定する、Base64でエンコードされた画像を直接リクエストに含めることで、APIによる画像認識が可能となります。

しかし一部制限があり、特定の物体の位置について詳細な質問に答えることは最適化されていない、画像のアップロードサイズは20MBまでとなっています。

2024年5月の大型アップデートにより、APIの使用料を比較してみると、従来より半額の料金で利用できるようになっています。

GPT-4 TurboGPT-4o
入力10ドル(約1,556円)/100万トークン5ドル(約778円)/100万トークン
出力30ドル(約4,669円)/100万トークン15ドル(約2,334円)/100万トークン

ChatGPTの画像認識についてのまとめ

いかがだったでしょうか?

この記事をまとめると、

  • ChatGPTのGPT4Vの画像認識機能(画像読み込み、画像入力、画像アップロード)は現在公開済みである。
  • DALLE3は画像生成初心者でも簡単に画像生成ができる
  • ChatGPTのGPT4Vの画像認識では画像の解説ができる
  • ChatGPTのGPT4Vでは、画像認識からレシピを出力させたり、カラーパレットを出力させることができ
  • ChatGPTのAPI経由でも画像認識が可能!
  • 2024年5月の大型アップデートにより、日本語の画像認識が可能に!

でした。

今後さらに画像認識の応用技術開発が進み、デモの使い方ができるようになるのが待ち遠しいですね!

Romptnでは他にもAIに関する記事を執筆していますので、ぜひご覧ください。

romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
ChatGPT
スポンサーリンク
romptn Magazine