ChatGPTで音声データの文字起こしと議事録要約のやり方

ChatGPT

会議の議事録作成やインタビューの文字起こし、時間がかかって大変ですよね。「ChatGPTを使えば簡単に文字起こしができるのでは?」と期待している方も多いのではないでしょうか?

実は、ChatGPTには音声ファイルから直接文字起こしする機能は搭載されていません。しかし、WhisperやGPT-4o Transcribeといった専用ツールと組み合わせることで、高精度な文字起こしを実現できます!

今回は、「ChatGPTで文字起こしはできるのか?」という疑問にお答えしながら、音声ファイルの文字起こしに使えるツールの使い方から、ChatGPTを活用した議事録作成のやり方まで、初心者の方にも分かりやすく丁寧に解説していきます。

実際の手順を画像付きで紹介していきますので、ぜひ最後までご覧ください!

📖この記事のポイント

  • ChatGPT単体では音声ファイルの文字起こしは不可能だが、リアルタイム音声入力とPDFには対応
  • WhisperやGPT-4o Transcribeを使えば、高精度な音声ファイルの文字起こしが可能
  • Google Colaboratoryを使えば、プログラミング初心者でも簡単に文字起こしツールを利用できる
  • ZoomやTeamsなどの外部ツールとChatGPTを組み合わせることで、議事録作成を大幅に効率化できる
  • SHIFT AIの無料セミナーならAIのプロから無料で収入に直結するAIスキル習得から仕事獲得法まで学べる!
  • 今すぐ申し込めば、超有料級の12大特典も無料でもらえる!

\ 累計受講者10万人突破 /

無料AIセミナーを見てみる
監修者プロフィール
森下浩志
日本最大級のAI情報プラットフォーム「romptn ai」編集長。著書に「0からはじめるStable Diffusion」「0からはじめるStable Diffusion モデル・拡張機能集編」など、AmazonベストセラーのAI関連書籍を多数執筆。AIにおける情報の非対称性を解消するための社内研修や出張講義も行う。

音声ファイルの文字起こしはできない

ChatGPT単体で文字起こしをすることはできる?という疑問についてお答えしていきます。

現在のところ、ChatGPT単体では音声ファイルから直接文字起こしする機能は搭載されていません。しかし、リアルタイム音声入力、PDFファイルの文字起こしには対応しています。

この点について以下で詳細に解説します。

ChatGPT単体では音声ファイルからの文字起こしは不可能

ChatGPTは大量のデータを学習した高度な自然言語処理モデルですが、音声データを直接解析してテキストに変換する機能は備わっていません。これは、ChatGPTが本来テキストベースの対話型AIとして設計されているためです。

音声ファイルからテキストへの変換には、音声波形を解析して話者の声や言葉を正確に認識する専門的な音声認識技術が必要です。この技術はChatGPTには搭載されていないため、MP3やWAV、MP4といった録音済みの音声データをアップロードしても、ChatGPT単体では内容をテキスト化することはできません。

そのため、音声ファイルの文字起こしを行いたい場合は、まず文字起こし専用ツールで音声データをテキスト化し、その後ChatGPTに入力して要約や整形を行うという流れになります。

例えば会議の議事録を作成する場合、録音データを別のツールで文字起こしし、生成されたテキストをChatGPTに読み込ませて議事録形式に整えるという2段階の作業が必要です。このように、ChatGPTは音声データの「後処理」、つまりテキストの校正や要約には非常に優れていますが、音声ファイルそのものの文字起こしには対応していないという点を理解しておくことが重要です。

PDF・音声入力の文字起こしはできる

ChatGPTで文字起こしができないのは「音声ファイル」に限った話であり、他の方法では文字起こしが可能です。具体的には、PDFファイルのテキスト抽出と、リアルタイムの音声入力による文字起こしには対応しています。

ChatGPTの有料版(Plus)やスマートフォンアプリでは、マイク機能を使った音声入力が実装されています。これにより、マイクに向かって話した内容をリアルタイムで文字に変換することができます。

例えば、会議中にその場でメモを取りたい場合や、思いついたアイデアを素早くテキスト化したい場合に便利です。ただし、この機能はあくまで「その場で話している内容」をテキスト化するものであり、既に録音済みの音声ファイルを処理するものではありません。

また、PDFファイルについては、ChatGPTにアップロードすることでテキスト情報を読み取り、内容の要約や分析が可能です。書類や資料のテキストを抽出して活用したい場合に有効な機能といえます。

Open AI Whisperで音声ファイルの文字起こしをする方法

ChatGPTと同じくOpenAIが開発したWhisperという音声認識モデルを利用することで、音声ファイルの文字起こしが可能になります。

Whisperを使えば、ChatGPT単体ではできなかった音声データのテキスト化を実現できます。ただし、Whisperの利用には多少の技術的知識が必要です。

Whisperとは?

Whisperは、OpenAIが開発した高精度な音声認識モデルです。

音声データを入力として受け取り、それを解析してテキストデータに自動変換する機能を持っています。ChatGPTがテキスト処理に特化しているのに対し、Whisperは音声認識に特化したツールといえます。

WhisperはAPIのみの提供となっているため、利用するには、プログラム言語から呼び出したり、Google Colabなどのクラウド上の実行環境を使用する必要があります。

ある程度のプログラミング知識が求められる点が特徴であるため、技術的なハードルは高めですが、その分高精度な文字起こしを実現できます。

参照:Whisper公式サイト

Whisperの5つのモデルサイズとは?

Whisperには、tiny、base、small、medium、largeという5つの異なるモデルサイズが用意されており、それぞれ処理速度と認識精度にトレードオフの関係があります。

各モデルサイズの特徴:モデルサイズが大きくなるほど認識精度は向上しますが、ファイルサイズが大きくなり処理時間も長くなります。各モデルの特徴は以下の通りです。

  • tinyモデル:最も軽量で高速な処理が可能ですが、基本的な精度にとどまります
  • baseモデル:軽量かつ高速で、良好な精度を実現します
  • smallモデル:デフォルトで使用されるモデルで、処理速度と精度のバランスが取れています
  • mediumモデル:処理時間はやや長くなりますが、高精度な認識が可能です
  • largeモデル:処理に時間がかかり多くのメモリを必要としますが、最も高い認識精度を実現します

Whisperの使用手順

ここでは、最も手軽に始められるGoogle Colaboratory(Colab)を使用した方法を中心に、基本的な使用手順を解説します。

Google Colaboratory(Colab)にアクセスし、Googleアカウントでログインします。ログインすると下記の画面が表示されるため、「ノートブックを新規作成」をクリックします。

画面右上の「接続」をクリックし、接続されていることを確認してください。

次に画面右上の「ランタイムのタイプを変更」をクリックします。

そしてランタイムのタイプを「T4 GPU」へと変更します。

ランタイプの変更後、Whisperをインストールするため以下のコマンドを実行します。コマンドを添付画像の赤枠のように入力し、左にある三角のボタン(▶︎)を押して実行します。

pip install git+https://github.com/openai/whisper.git

次に、画面左上の「+コード」をクリックし、以下のコマンドを画面下の入力欄に入力します。入力したら再び三角の実行ボタン(▶︎)を押します。

import whisper

これで環境の設定は終了です。環境構築が完了したため、実際の文字起こしの手順について解説します。

文字起こしを行うには、処理したい音声ファイル(MP3、WAV、M4Aなど)をGoogle Colaboratoryにアップロードします。アップロードは、画面左のファイルをクリックし、アップロードボタンから行えます。

そして、文字起こしのためのコードを入力します。その際には以下のようなコードを使用すると良いでしょう。

import whisper
   model = whisper.load_model("small")
   result = model.transcribe("ファイル名.mp3")
   print(result["text"])

実行すると、音声データがテキストに変換されて表示されます。

Whisper対応ファイル形式

Whisperは、MP3やWAVなどの一般的な音声ファイル形式に対応しており幅広い音声データを扱うことができます。音声データの変換に手間取る必要がなく、スムーズに文字起こしを行うことが可能です。

対応ファイル形式:mp3 / mp4 / mpeg / mpga / m4a / wav / webm

GPT-4o Transcribe・GPT-4o Mini Transcribeで音声ファイルの文字起こしをする方法

2025年3月、OpenAIが次世代音声認識モデル「GPT-4o Transcribe」と「GPT-4o Mini Transcribe」を発表しました。れらは従来のWhisperモデルをさらに進化させた音声認識AIで、より高精度な文字起こしを実現します。

GPT-4o Transcribe・GPT-4o Mini Transcribeの特徴

GPT-4o Transcribeは、マルチモーダルに対応したGPT-4oをベースとしたモデルです。従来のWhisperモデルに比べ、誤認識を大幅に削減、背景の雑音などのノイズ耐性も改善されており実用的な環境での使用に適しているとされています。

GPT-4o Mini Transcribeは、GPT-4o Transcribeの軽量高速版です。モデルサイズを小型化することで処理速度が向上し、コスト面でも優れています。精度と速度のバランスに優れており、大量のデータを処理する場面で活躍します。

実際の使用手順

まずはOpenAIプラットフォームページにアクセスしAPIキーを取得する必要があります。

「Create new secret key」をクリックしてAPIキーを生成し、生成されたAPIキーを安全な場所に保存してください。APIの使用には課金が発生するため、OpenAIのウェブサイトで支払い情報を設定する必要があります。

そしてWhisperの時と同様にGoogle Colaboratoryにアクセスして新しいノートブックを作成します。

左側のメニューの鍵マークをクリックし、「新しいシークレットを追加」をクリックします。

その際に、以下の情報を入力します。入力後、「ノートブックのアクセスを有効にする」のトグルをオンにして保存します。

名前(Name): OPENAI_API_KEY
値(Value): 先ほど取得したOpenAI APIキー(sk-で始まる文字列)

そして、Googleドライブにテキスト化したい音声ファイルを保存しておきましょう。

デフォルトではMyDrive/Colab Notebooks/sample.m4aというファイルを文字起こしするようになっているため、ご自身の音声ファイルの保存場所に合わせて、ファイル名や保存先のフォルダパスを書き換えてください

最後に、セルの実行ボタンを押して処理を完了させるだけです。

使用時の注意点

Transcription APIには1ファイルあたり最大25MBの制限があります。これはGPT-4o TranscribeとGPT-4o Mini Transcribeでも同様です。これを超えるファイルサイズの音声を文字起こしする場合は、ファイルを分割したりオーディオ形式を圧縮する必要があります。

また、現状、GPT-4oモデルは話者分離(誰が喋ったかの識別)に対応していない点には注意が必要です。複数人が参加する会議などで、発言者を区別したい場合は、別のツールや手動での編集が必要になります。

そしてAPIの取得にかかる料金についても事前にチェックしておく必要があります。最新情報については以下の公式のページを参照してください。

参照:OpenAI公式ページ

ChatGPTと相性が良い他の書き起こしツール

ZoomやMicrosoft Teams、Google Meetなどの会議ツールには、自動文字起こし機能が搭載されています。これらのツールで生成された文字起こしデータをChatGPTで加工することで、より実用的な議事録や報告書を作成できます。ここでは、文字起こしにおすすめな他のツールを紹介します。

  • Zoom:Zoomの自動文字起こし機能では、オンライン会議中にリアルタイムで発言内容を文字化してくれます。参加者全員が同じ画面で文字情報を確認できるため、聞き逃しの防止に有効です。基本的なライブ字幕機能は無料版でも利用できます。
  • Microsoft Teams:Teamsの自動文字起こし機能は、Microsoft 365との連携が最大の強みです。有料プランでは会議の録画と同時に文字起こしが行われ、データはOneDriveやSharePoint上に保存されます。文字起こし内容はWordなどへの出力も可能で、多言語対応も充実しています。
  • Google Meet:Google Workspaceとの統合により、会議の録画や文字起こしデータをGoogleドライブに保存できるのが特徴です。リアルタイム字幕は無料版でも利用できるため、手軽に試すことができます。
  • Googleドキュメント:Googleドキュメントの音声入力機能は、完全無料で利用できる手軽さが最大の魅力です。PC版のドキュメントの左上、マイクアイコンをクリックして話すだけで、リアルタイムに文字が入力されます。

他ツールとの組み合わせによる活用&プロンプト例

WhisperやGPT-4o Transcribeと、他の文字起こしツールで作成した文字起こしデータは、そのままでも使えることが多いのですが、ChatGPTで少し手を加えることで格段に読みやすくなります。音声認識ツールが生成した生のテキストをChatGPTでブラッシュアップすることで、より実用的な文書を作成できます。

文字起こしの誤字脱字の修正

文字起こしツールでは、同じ音の言葉が文脈に合わない別の単語に変換されてしまうこともよくあります。例えば「体制」と「耐性」、「意志」と「石」など、同音異義語の誤変換が発生しやすい状況です。

ChatGPTは文脈を理解しながら、こうした誤りを自然に修正できます。基本的な誤字脱字から、専門用語の表記ミスまで幅広く対応可能です。

プロンプト例:

以下の文字起こしデータの誤字脱字を修正してください。
同音異義語の誤変換や専門用語の表記ミスを文脈に基づいて修正し、元の意味は変えないでください。

[文字起こしデータをここに貼り付け]

議事録の作成

要約よりもさらに詳細な、フォーマルな議事録の作成もChatGPTでは可能です。企業の会議では決まった形式の議事録が求められることが多いため、テンプレートに沿った議事録になるようなプロンプトで、文字起こしした内容をまとめましょう。

プロンプト例:

以下の文字起こしデータを使用して、正式な議事録を作成してください:
- 会議名:[会議名を入力]
- 日時:[日時を入力]
- 参加者:[参加者リストを入力]

議事録には以下の項目を含めてください:
1. 報告事項(発言者名と内容)
2. 審議事項(論点と結論)
3. 決定事項(具体的な内容と期限)
4. その他(質疑応答など)

[文字起こしデータをここに貼り付け]

書き起こしテキストの要約

長時間の会議や講演の内容を短時間で把握したい場合、ChatGPTで内容を要約するのがおすすめです。これにより、重要なポイントを見落とすことなく、効率的に情報を整理できます。

プロンプト例:

この会議の文字起こしデータから、以下の要素を含む要約を作成してください:
1. 主要な議題と結論(3-5項目)
2. 決定事項と担当者
3. 次回までのアクションアイテム
4. 未解決の課題

要約はA4用紙1枚程度の分量でまとめてください。

[文字起こしデータをここに貼り付け]

インタビューコンテンツの作成

取材音声やインタビューの録音を記事に仕立てたい場合も、ChatGPTの活用が効果的です。文字起こしデータを投入し、「雑誌用のインタビュー記事として再構成してください」といった具体的な指示を与えることで、流れのある読みやすい記事に仕上げることができます。

プロンプト例:

このインタビューの文字起こしデータを、読みやすい記事形式に変換してください:
- 対象読者:[ターゲット層を入力]
- 記事の目的:[目的を入力]
- 文字数:[希望文字数を入力]

以下の点に注意して作成してください:
1. インタビュイーの発言の自然さを保持
2. 読者にとって分かりやすい構成に整理
3. 専門用語には適切な説明を追加
4. インタビュイーの人柄が伝わる表現を使用

[文字起こしデータをここに貼り付け]

ChatGPTを文字起こしに利用する際のコツ・注意点

文字起こしデータをChatGPTで活用する際は、より良い結果を得るためのコツと、注意すべき点があります。これらを理解して適切に活用することで、業務効率の向上と品質の担保を両立できます。

専門用語の事前にインプットする

業界の専門用語や企業内で使われる略語などは、事前にChatGPTに説明しておくことで精度が向上します。ChatGPTは膨大な知識を持っていますが、あなたの業界や会社特有の用語については十分に理解していない場合があります。

こうした専門用語を事前にChatGPTに伝えておくことで、文字起こしデータの校正や要約の際に、より正確な処理が可能になります。

プロンプト例:

以下、本会議についての概要です。
こちらをインプットした上で文字起こしデータを処理してください:

【プロジェクト情報】
・A案件:株式会社○○がクライアントの案件。××を単価○○で受注しています。

【参加者情報】
・田中:部長、50代、男性、会議中は主に進行を担当
・山本:一般社員、30代、男性、本プロジェクトの現場担当者
・佐藤:一般社員、20代、女性、マーケティング関連で主に回答
・林:課長、40代、女性、KPI、KGI周りでの議事進行を担当

【専門用語】
・ワンストップ案件:当社独自の用語で、企画から納品までを一括で受注する案件
・クロスセル:既存顧客に対して関連商品を提案すること

機密情報・個人情報の入力を避ける

ChatGPTに入力したデータは、サービス提供者側で学習データとして活用される可能性があります。企業の機密情報や個人情報が含まれる文字起こしデータを処理する際は、十分な注意が必要です。

特にビジネスの場面では、会議やインタビューの内容に企業の機密情報や個人のプライバシーに関わる情報が含まれることが多くあります。これらの情報を安易にChatGPTに入力すると、情報漏洩のリスクが発生します。

まとめ

いかがでしたでしょうか?

ChatGPTの文字起こし機能について、基本的な仕組みから具体的な活用方法、便利なツールとの組み合わせまで詳しくご紹介しました!

この記事で紹介したことをまとめると次のようになります。

  • ChatGPT単体では音声ファイルの文字起こしは不可能だが、リアルタイム音声入力とPDFには対応
  • WhisperやGPT-4o Transcribeを使えば、高精度な音声ファイルの文字起こしが可能
  • Google Colaboratoryを使えば、プログラミング初心者でも簡単に文字起こしツールを利用できる
  • ZoomやTeamsなどの外部ツールとChatGPTを組み合わせることで、議事録作成を大幅に効率化できる

会議の議事録作成に時間がかかって困っている方や、インタビュー音声を効率的にテキスト化したいという方にとって、かなり助けになる情報だったのではないでしょうか?

ぜひ、今回紹介したツールやテクニックを活用して、文字起こし業務の効率化を実現してみてください!まずはWhisperの無料枠から気軽に始めてみてくださいね!

romptn aiが提携する「SHIFT AI」では、AIの勉強法に不安を感じている方に向けて無料オンラインセミナーを開催しています。

AIを使った副業の始め方や、収入を得るまでのロードマップについて解説しているほか、受講者の方には、ここでしか手に入らないおすすめのプロンプト集などの特典もプレゼント中です。

AIについて効率的に学ぶ方法や、業務での活用に関心がある方は、ぜひご参加ください。

\累計受講者10万人突破/