【GPT-4V】ChatGPTで画像・音声の入力が可能に!使い方を解説

ChatGPT

ChatGPTで画像・音声の入出力ができるようになったのはご存知ですか?

ChatGPTはテキストベースのAIですが、この更新によりマルチモーダル化し、さらに様々な場面で活用できるようになりました。

しかし、どこからその新機能を使えば良いか分からない方もいらっしゃるのではないでしょうか?

今回は、「目と耳がついた」ChatGPTの新機能の使い方について詳しく解説していきます!

スポンサーリンク

GPT-4Vとは

2023年9月25日にOpenAIから発表のあった、ChatGPTに画像解析機能と音声出力機能を持たせたマルチモーダルAIのことです。

「目と耳がついた」ChatGPT

これまで画像を解析させたり、音声入力・出力をさせる際にはプラグインの使用が必須でしたが、GPT-4Vに更新することでプラグインを使わなくてもChatGPTに直接画像・音声の入力ができるようになりました。

そのため「目と耳がついた」と表現されています。

また入力だけでなく、現在のChatGPTの回答は音声読み上げができるようになった他、DALL-E3を使えば画像生成が可能になりました。画像・音声の出力も可能ということです。

画像生成機能であるDALL-E3についてはこちらの記事で詳しく解説しています!

いつから使える?

GPT-4Vの発表自体は2023年9月25日に行われました。

しかし全てのユーザーが同一のタイミングで使えるようになったわけではなく、ユーザーによって使えるようになる時期が異なっていたということです。

そのため特定の「いつから使える」という時期は決まっていなかったようです。

しかし、現在では発表から1ヶ月以上経っているため、課金しているユーザーは基本的に使えるようになっているものと考えられます。

GPT-4Vの使えない原因・料金は?

まず、2023年11月時点で、GPT-4vを使うことができるのはChatGPT-4にアクセスできるPlus版、Enterprise版のユーザーのみです。

無料版のユーザーは使うことができません。

今後、無料版ユーザーに向けて機能が解放されることも考えられますが、現時点で画像・音声の入出力を行いたい場合には課金が必要です。

個人向けの課金プランであるChatGPT Plusの料金は月額20ドルで、日本円換算で3000円程度となっています。(2023年11月時点)

課金しているのに使えない場合

上述の通り、GPT-4Vの発表当初は全てのユーザーが同一のタイミングで使えるようになったわけではありませんでした。

そのため以前は「課金しているのに使えない」という状況があったようですが、現在は解消されているようです。

また、GPT-4Vを使える状態にあっても、サーバー負荷が高い時には回答の生成途中でエラーが起きたり、中断される時があるようです。

その他、画像入力をする際は、その画像のデータサイズが大きすぎると正常に読み込むことができないことがあります。

GPT-4Vの新機能の使い方

それではここからは、実際にGPT-4Vの新機能の使用例についてご紹介していきます!

GPT-4Vの使い方①画像入力をする

ChatGPTを開いたら、GPT-4でチャットを始めます。

プロンプト入力バーの左にクリップマークが表示されるので、そちらを選択すると添付する画像を選択できます。

今回は、こちらのパッケージが破れた外国のお菓子について調べてもらうことにしました。

すると、ノルウェー語を分析してそのお菓子を特定してくれました。

袋の「Lefsa」「Kanel」の部分は破られているのに単語まで特定しています。

精度はとても高いようです!

GPT-4Vの使い方②音声入力・出力をする

2023年11月12日の時点では、課金ユーザーでもアプリ版ChatGPTのみでGPT-4Vを使った音声入力・出力ができるようです。今後ブラウザ・PC版でも利用可能になるものと考えられます。

ChatGPTアプリを開いたら、画像入力の時と同様にGPT-4でチャットを始めます。

すると、プロンプト入力バーの右にヘッドフォンマークが表示されているので、そちらを選択します。

すると音声入力についての案内が表示されます。そしてChatGPTの回答読み上げ時の声について選ぶよう求められます。

Sky, Breeze, Juniperは女性の声で、Ember, Coveは男性の声です。サンプルを聴いて好きな声を選択しましょう。

ここで選択した声は後から「Settings」で変更することが可能です。

声を設定したら、マイクの使用を許可して、音声入力スタートです。自動で言語を認識してくれるので日本語でも英語でも認識してくれます。

声を出すのをやめると、自動で送信してChatGPTが回答を生成し、それを先程選択した声で読み上げてくれます。回答が全て生成されてから読み上げるので音声が出力されるまでには少し時間がかかりますが、気長に待ちましょう。

生成された回答は後でテキストで確認することも可能です。

まだ少し日本語のイントネーションや発音がおかしな部分もありますが、今後に期待ですね!

ちなみにこの音声入力はテキストベースであり、「歌のメロディから歌のタイトルを検索する」ことなどはできません。

まとめ

いかがでしたでしょうか?

画像・音声の入力ができるようになったGPT-4vの使い方について解説してきました。

今回のポイントをまとめると次の通りです。

  • GPT-4vは課金しているPlus版、Enterprise版のユーザーが使用できる
  • GPT-4vではプラグインを使わなくても画像と音声の入出力ができる
  • 入力の仕方はとてもシンプルで、回答の精度も高い

ぜひ、ChatGPTの新機能を様々な場面に活かしてみてください!

romptn Q&Aで質問してみませんか?
romptn Q&Aは、AIに関する質問プラットフォームです。
  • ChatGPTで〇〇を効率化したい
  • スライドを作るならどのAIツールがおすすめ?
  • おすすめのGPTsが知りたい
といったことはありませんか?
同じ悩みを解決した人がいるかもしれません。ぜひ質問してみてください!
ChatGPT
スポンサーリンク
romptn Magazine