【GPT-4V】ChatGPTで画像・音声の入力が可能に！使い方を解説

2025.07.18

ChatGPT

ChatGPTに「GPT-4V」が登場し、画像・音声の入出力ができるようになったのはご存知ですか？

ChatGPTはテキストベースのAIですが、この更新によりマルチモーダル化し、さらに様々な場面で活用できるようになりました。

しかし、どこからその新機能を使えば良いか分からない方もいらっしゃるのではないでしょうか？

今回は、「目と耳がついた」ChatGPTの新機能の使い方について詳しく解説していきます！

📖この記事のポイント

ChatGPTに「目と耳がついた」GPT-4Vが登場！画像の内容を理解したり、音声で会話したりすることが可能になった
チャット欄に画像を添付するだけで、写真に写っているものを説明させたり、外国語のパッケージが何かを特定させたりできる！
スマホアプリ版なら、ヘッドフォンマークをタップすれば音声会話モードがスタート！まるで人間と話しているみたいに自然なやり取りが楽しめる！
AIと画像や音声で遊ぶのは当たり前！これからは「AIに仕事をさせる側」になるための知識を身につけることが最重要！
SHIFT AIの無料セミナーならAIのプロから無料で収入に直結するAIスキル習得から仕事獲得法まで学べる！
今すぐ申し込めば、超有料級の12大特典も無料でもらえる！

\ 累計受講者10万人突破 /

無料AIセミナーを見てみる

※2024年5月13日に、ChatGPTの新しいLLM「GPT-4o(オムニ)」が登場しました！以下の記事で詳しい概要や使い方について解説していますので、合わせてチェックしてみてください。

目次

GPT-4Vとは
- 特徴：「目と耳がついた」ChatGPT
GPT-4Vはいつから使えるようになった？
GPT-4Vの使えない原因・料金は？
- 課金しているのに使えない場合
GPT-4Vの新機能の使い方
- GPT-4Vの使い方①：画像入力をする
- GPT-4Vの使い方②：音声入力・出力をする
【2024年5月追記】GPT-4Vで日本語の画像認識が可能に！
まとめ

GPT-4Vとは

2023年9月25日にOpenAIから発表のあった、ChatGPTに画像解析機能と音声出力機能を持たせたマルチモーダルAIのことです。

特徴：「目と耳がついた」ChatGPT

これまで画像を解析させたり、音声入力・出力をさせる際にはプラグインの使用が必須でしたが、GPT-4Vに更新することでプラグインやGPTsを使わなくてもChatGPTに直接画像・音声の入力ができるようになりました。

そのため「目と耳がついた」と表現されています。

また入力だけでなく、現在のChatGPTの回答は音声読み上げができるようになった他、DALL-E3を使えば画像生成が可能になりました。画像・音声の出力も可能ということです。

画像生成機能であるDALL-E3についてはこちらの記事で詳しく解説しています！

GPT-4Vはいつから使えるようになった？

GPT-4Vの発表自体は2023年9月25日に行われました。

しかし全てのユーザーが同一のタイミングで使えるようになったわけではなく、ユーザーによって使えるようになる時期が異なっていたということです。そのため特定の「いつから使える」という時期は決まっていなかったようです。

しかし2023年10月ごろから順次公開されていき、2024年5月現在ではすべてのChatGPT Plus(課金)ユーザーが利用できるようになっています！

GPT-4Vの使えない原因・料金は？

まず、2024年5月時点で、GPT-4vを使うことができるのはChatGPT-4にアクセスできるPlus版、Enterprise版のユーザーのみですので、無料版のユーザーは使うことができません。

今後、無料版ユーザーに向けて機能が解放されることも考えられますが、現時点で画像・音声の入出力を行いたい場合には課金が必要です。

個人向けの課金プランであるChatGPT Plusの料金は月額20ドルで、日本円換算で3000円程度となっています。(2024年5月時点)

※ChatGPT Plusの加入方法については、以下の記事でも詳しく解説しています！

課金しているのに使えない場合

上述の通り、GPT-4Vの発表当初は全てのユーザーが同一のタイミングで使えるようになったわけではありませんでした。

そのため以前は「課金しているのに使えない」という状況があったようですが、現在は解消されているようです。

また、GPT-4Vを使える状態にあっても、サーバー負荷が高い時には回答の生成途中でエラーが起きたり、中断される時があるようです。

その他、画像入力をする際は、その画像のデータサイズが大きすぎると正常に読み込むことができないことがあります。

GPT-4Vの新機能の使い方

それではここからは、実際にGPT-4Vの新機能の使用例についてご紹介していきます！

GPT-4Vの使い方①：画像入力をする

ChatGPTを開いたら、GPT-4でチャットを始めます。

プロンプト入力バーの左にクリップマークが表示されるので、そちらを選択すると添付する画像を選択できます。

今回は、こちらのパッケージが破れた外国のお菓子について調べてもらうことにしました。

すると、ノルウェー語を分析してそのお菓子を特定してくれました。

袋の「Lefsa」「Kanel」の部分は破られているのに単語まで特定しています。

精度はとても高いようです！

GPT-4Vの使い方②：音声入力・出力をする

2024年5月の時点では、課金ユーザーでもアプリ版ChatGPTのみでGPT-4Vを使った音声入力・出力ができるようです。今後ブラウザ・PC版でも利用可能になるものと考えられます。

ChatGPTアプリを開いたら、画像入力の時と同様にGPT-4でチャットを始めます。

すると、プロンプト入力バーの右にヘッドフォンマークが表示されているので、そちらを選択します。

すると音声入力についての案内が表示されます。そしてChatGPTの回答読み上げ時の声について選ぶよう求められます。

Sky, Breeze, Juniperは女性の声で、Ember, Coveは男性の声です。サンプルを聴いて好きな声を選択しましょう。

ここで選択した声は後から「Settings」で変更することが可能です。

声を設定したら、マイクの使用を許可して、音声入力スタートです。自動で言語を認識してくれるので日本語でも英語でも認識してくれます。

声を出すのをやめると、自動で送信してChatGPTが回答を生成し、それを先程選択した声で読み上げてくれます。回答が全て生成されてから読み上げるので音声が出力されるまでには少し時間がかかりますが、気長に待ちましょう。

生成された回答は後でテキストで確認することも可能です。

まだ少し日本語のイントネーションや発音がおかしな部分もありますが、今後に期待ですね！

ちなみにこの音声入力はテキストベースであり、「歌のメロディから歌のタイトルを検索する」ことなどはできません。

【2024年5月追記】GPT-4Vで日本語の画像認識が可能に！

2024年5月の大型アップデートにより、GPT-4Vで日本語の画像認識が可能になりました。

これまでは英語の認識が得意で日本語の認識は苦手だったようですが、早速実力を見てみましょう！

以下のChatGPTの利用規約のスクショ画像を翻訳してもらいました。

結果がこちらです！

しっかり認識できていますね！今回のアップデートでかなり能力が上がったことが分かります。

まとめ

いかがでしたでしょうか？

画像・音声の入力ができるようになったGPT-4vの使い方について解説してきました。

今回のポイントをまとめると次の通りです。

GPT-4vは課金しているPlus版、Enterprise版のユーザーが使用できる
GPT-4vではプラグインやGPTsを使わなくても画像と音声の入出力ができる
入力の仕方はとてもシンプルで、回答の精度も高い
2024年5月の大型アップデートにより、日本語の画像認識が可能に！

ぜひ、ChatGPTの新機能を様々な場面に活かしてみてください！

romptn aiが提携する「SHIFT AI」では、AIの勉強法に不安を感じている方に向けて無料オンラインセミナーを開催しています。

AIを使った副業の始め方や、収入を得るまでのロードマップについて解説しているほか、受講者の方には、ここでしか手に入らないおすすめのプロンプト集などの特典もプレゼント中です。

AIについて効率的に学ぶ方法や、業務での活用に関心がある方は、ぜひご参加ください。

\累計受講者10万人突破/

無料AIセミナーを申し込んでみる

無料AIセミナーを申し込んでみる