Gemini 3.1 Proの性能は何が変わった?ベンチ比較と使い方まとめ

Gemini

Googleの最新モデル「Gemini 3.1 Pro」がプレビューとして公開されました。推論と、複数ステップの実行(検索・ツール利用を挟む作業)が強化されています。

難しめの推論テストでスコアが大きく伸びており、以前よりも手順を崩さずにタスクをやり切ることができるようになりました。

一方で、具体的にどのくらい伸びたのか、どこから使えるのかなどが分かりにくいのも事実です。

本記事では、Gemini 3.1 Proの特徴と、利用できる環境(入口)を整理します。

内容をまとめると…

  • Gemini 3.1 Proは推論とマルチステップ実行が強化されたプレビュー版。調査→整理→実行までを通しで任せると差が出やすい

  • 指標では推論(ARC-AGI-2)と、検索・ツール実行(BrowseComp / MCP Atlas / APEX-Agents)で伸びが目立つ。ChatGPT-5.2との比較も表にまとめた

  • 使える場所はGeminiアプリ、NotebookLM、Google AI Studio(Gemini API)、Vertex AI、Gemini Enterprise、Gemini CLI、Antigravity、Android Studioなど。用途で入口を選ぶ

豪華大量特典無料配布中!

romptn aiが提携する完全無料のAI副業セミナーでは収入UPを目指すための生成AI活用スキルを学ぶことができます。

ただ知識を深めるだけでなく、実際にAIを活用して稼いでいる人から、しっかりと収入に直結させるためのAIスキルを学ぶことができます。

現在、20万人以上の人が収入UPを目指すための実践的な生成AI活用スキルを身に付けて、100万円以上の収益を達成している人も続出しています。

\ 期間限定の無料豪華申込特典付き! /

AI副業セミナーをみてみる
監修者_SD以外
監修者プロフィール
森下浩志
日本最大級のAI情報プラットフォーム「romptn ai」編集長。著書に「0からはじめるStable Diffusion」「0からはじめるStable Diffusion モデル・拡張機能集編」など、AmazonベストセラーのAI関連書籍を多数執筆。AIにおける情報の非対称性を解消するための社内研修や出張講義も行う。

Gemini 3.1 Proとは

Gemini 3.1 Proは、Gemini 3 Proをベースに推論力と一貫性を強化したモデルです。

「賢く答える」よりも、途中で迷子になりがちな作業を最後まで通すところで差が出ます。Xでも、SVGアニメやアプリ試作などの用途で試す投稿が増えています。

  • PDFや議事録を読ませて、要点→論点→ToDoまで整理する
  • 検索→根拠URL→比較表→結論を、同じ指示の中でまとめ切る
  • AI Studio Buildで、要件から小さめのWebアプリを試作する(画面と機能のたたき台)
  • SVGアニメで、動く図解・アイコン・ロード画面などの素材を作る
  • p5.jsなどのビジュアル系コードを作り、動かし方と調整案まで出す

注意:Gemini 3.1 Proはプレビュー提供です。提供範囲・挙動・上限は今後変わる可能性があります。知識カットオフもあるため、最新情報が必要な場面では検索グラウンディング等の併用を前提にしてください。

どこで使える?利用環境を整理

Gemini 3.1 Proは、以下のように様々な経路で利用することができます。

利用できる場所補足
Geminiアプリロールアウト中。Google AI Pro / Ultraは上限が高めになりやすい
NotebookLMPro / Ultra限定
Google AI Studio(Gemini API)モデルIDgemini-3.1-pro-preview
ツール優先gemini-3.1-pro-preview-customtools
Vertex AIGCP課金とAPI有効化が前提
Gemini Enterprise契約プラン/管理設定に依存
Gemini CLI開発者向け。ターミナルから呼び出す用途
Google Antigravityエージェント開発向けの入口
Android StudioIDE内で試す入口

性能差を見たい方は、AI StudioでモデルIDを固定して比較するのが分かりやすいです。気軽にまずは使ってみたいという方はGeminiアプリがおすすめです。

ベンチマークで見るGemini 3.1 Proの変化

ここは数字だけ見ても「何が良くなったのか」が伝わりにくいので、意味もセットで整理します。全体としては、初見の推論検索・ツール実行を挟むマルチステップで伸びが大きいです。

ベンチマークGemini 3.1 ProGemini 3 ProChatGPT-5.2
ARC-AGI-277.1%31.1%52.9%
BrowseComp85.9%59.2%65.8%
MCP Atlas69.2%54.1%60.6%
APEX-Agents33.5%18.4%23.0%
SWE-Bench Verified80.6%76.2%80.0%
LiveCodeBench ProElo 288724392393
MMMU-Pro80.5%81.0%79.5%

ARC-AGI-2は初見の論理パターンを解くタイプのテストで、31.1%→77.1%と伸びが極端です。ここが上がると、条件が多い依頼でも途中で崩れにくくなります。

BrowseCompは検索+取得+要約のような「寄り道がある作業」の強さを見ます。59.2%→85.9%なので、調べ物を挟む仕事で体感差が出やすいです。

MCP Atlasは複数ツールをつないだワークフロー実行(マルチステップ)で、54.1%→69.2%。「順番どおりに進めて結果まで出す」が前より安定しやすい領域です。

APEX-Agentsは長めの業務タスクを最後まで通せるかを見るもので、18.4%→33.5%と上がっています。ここが伸びているのは、エージェント用途を意識しているサインです。

SWE-Bench Verifiedは実務寄りのバグ修正で、76.2%→80.6%。ChatGPT-5.2(80.0%)とも近いレンジになりました。

LiveCodeBench Proは競技寄りのコード問題で、Elo 2439→2887。アルゴリズム系の強さも底上げされています。

MMMU-Proはマルチモーダル理解で、ここは横ばい〜微調整です。3.1で全部が一気に伸びた、というより「伸びる場所がはっきりしている」タイプの更新です。

使いどころと注意点

Gemini 3.1 Proは、答えそのものよりも「途中の段取り」を大事にしたい作業でハマりやすいです。おすすめは、途中で手が止まりやすい仕事に当てることです。

Gemini 3.1 Proが向くタスク
  • 資料を読んで、論点・決定事項・ToDoを一枚にまとめる
  • 調査して、根拠URLつきで比較表と結論まで作る
  • 仕様を詰めながら、実装方針→タスク分解→コードのたたき台まで進める
  • 図解素材(SVG・簡単なアニメ)を作って、説明用に整える

注意点もあります。プレビュー版なので、同じ「3.1 Pro」でも入口によって上限や挙動が変わることがあります。比較検証をするなら、同じ入口(できればAI StudioでモデルID固定)で揃えた方が混乱しません。

  • コードは必ず実行して確認する(通った/通ってないを分ける)
  • 長いい依頼は「途中経過→続き」の二段階に分ける。

まとめ

最後にこの記事の内容をまとめます。

  • Gemini 3.1 Proは推論とマルチステップ実行が強化された、複雑タスク向けのプレビュー版
  • 伸びが大きいのはARC-AGI-2、BrowseComp、MCP Atlas、APEX-Agentsなど。何が得意かが数字に出ている
  • 使える環境はGeminiアプリ、NotebookLM(Pro/Ultra)、AI Studio(Gemini API)、Vertex AI、Gemini Enterprise、Gemini CLI、Antigravity、Android Studioなど
  • 検証はAI StudioでモデルID固定、手軽に試すならGeminiアプリ
  • プレビュー提供なので仕様は変わりうる。最新情報が絡む作業は検索併用が安全

まずは、業務の中の複雑で面倒な作業を、同じ条件で試して差を確認してみましょう。

豪華大量特典無料配布中!

romptn aiが提携する完全無料のAI副業セミナーでは収入UPを目指すための最新トレンド生成AI活用スキルを学ぶことができます。

ただ知識を深めるだけでなく、実際にAIを活用して稼いでいる人から、しっかりと収入に直結させるためのAIスキルを学ぶことができます。

現在、20万人以上の人が収入UPを目指すための実践的な生成AI活用スキルを身に付けて、100万円以上の収益を達成している人も続出しています。

\ AI画像生成スキルで収入UP! /

AI副業セミナーを見てみる