Gemini 3.5 Flashとは — 「速くて安い」小型モデルが旧フラッグシップを超えた領域、超えない領域

2026年5月のGoogle I/Oで登場した小型・高速モデル Gemini 3.5 Flash。前世代の旗艦 Gemini 3.1 Pro をエージェントとコーディングで上回り、価格は約25%安い。だが深い推論と長文脈ではまだ Pro が上だ——「どこで使い、どこで使わないか」を、公式ベンチと独立計測の両面から事実に基づいて整理する。

三行で要点

・Google が 2026 年 5 月 19 日(Google I/O 26)に Gemini 3.5 Flash を発表・同日一般提供開始。小型・高速モデルでありながら、前世代の旗艦 Gemini 3.1 Pro をエージェント・コーディング・マルチモーダルの主要ベンチで上回った

・ただし「全面勝利」ではない。深い推論(Humanity's Last Exam・ARC-AGI-2)と長文脈リトリーバルでは依然 3.1 Pro が上。価格は出力 $9 / 100万トークンで 3.1 Pro 比およそ 25% 安

・「他モデルの 4 倍速い」はGoogle 自称(比較対象は非開示)。独立計測では 165.4 tokens/秒と高速な一方、初回トークンまで約 22 秒と初動は遅い。使いどころの見極めが要る。

2026 年 5 月 19 日、Google は年次開発者会議 Google I/O 26 で Gemini 3.5 Flash を発表し、同日から一般提供を開始した。Flash は Google のラインナップで「小型・高速・低価格」を担う系列だが、今回のリリースが話題になったのは、その Flash が前世代の旗艦モデル Gemini 3.1 Pro を複数の主要ベンチマークで上回った点にある。「安い下位モデルが、一世代前の最上位を抜く」という構図は、AI を使う側のモデル選びを根本から揺さぶる。本記事では、公式モデルカードの数値と独立計測の両面から、どこで本当に強く、どこはまだ及ばないのかを、煽らずに事実ベースで整理する。

Gemini 3.5 Flashとは — 5月19日に何が出たのか

Gemini 3.5 Flash は、Google DeepMind の Gemini 3.5 系列のうち速度とコスト効率を重視した小型モデルだ。発表と同時に Gemini アプリ、検索の AI Mode、開発環境 Antigravity、Gemini API、AI Studio へ一斉ロールアウトされ、Gemini アプリと検索 AI Mode では初日からデフォルトモデルに採用された。上位の Gemini 3.5 Pro は発表時点では社内利用にとどまり、翌月(6 月)の公開が予告されている。つまり今回はまず「Flash 先行公開」という形だ。

スペック面では、入力 1,048,576 トークン(約 100 万)・出力 65,536 トークン(64K)のコンテキスト窓を持ち、テキスト・画像・動画・音声・PDF を入力に取れるマルチモーダル仕様(出力はテキストのみ)。知識のカットオフは 2025 年 1 月で、それ以降の出来事は学習していない点には注意が要る。

🎯 一言でまとめると

これまで「下位 = 安いが力不足」「上位 = 高いが賢い」という単純な序列だった。Gemini 3.5 Flash は、『安い下位』が『一世代前の上位』の仕事の多くを置き換えられることを示した。モデル選びは「一番賢いのはどれか」から「この作業に十分な最も安いモデルはどれか」へ重心が移る。

「Pro超え」はどこまで本当か — 公式ベンチを読む

Google DeepMind が公開した公式モデルカードの数値で、3.1 Pro との対比を見ると、差が出るのは主にエージェント(ツール使用)とコーディング、マルチモーダルの領域だ。ターミナル操作の Terminal-Bench 2.1 で 76.2%(3.1 Pro 70.3%)、ツールのオーケストレーション能力を測る MCP Atlas で 83.6%(同 78.2%)、金融タスクの Finance Agent v2 では 57.9%(同 43.0%)と、実務に直結する作業で 3.1 Pro を明確に上回った。

一方で、ここが本記事の核心の但し書きだ。純粋な推論力を測る項目では、依然 3.1 Pro が上回っている。人類最難関の総合試験と呼ばれる Humanity's Last Exam では 40.2%(3.1 Pro 44.4%)、抽象推論の ARC-AGI-2 では 72.1%(同 77.1%)と、いずれも Flash が負けている。つまり「Flash が Pro を超えた」は『実務で頻出する領域では』という条件付きであって、「あらゆる知能で旧旗艦を抜いた」わけではない。

主要ベンチ: Gemini 3.5 Flash vs 3.1 Pro 3.5 Flash 3.1 Pro Terminal-Bench 2.1 コーディング・Flash勝ち 76.2 70.3 MCP Atlas ツール使用・Flash勝ち 83.6 78.2 Finance Agent v2 エージェント・Flash圧勝 57.9 43.0 Humanity's Last Exam 深い推論・Proが上 40.2 44.4 ARC-AGI-2 抽象推論・Proが上 72.1 77.1 SWE-Bench Pro (Public) ソフト工学・ほぼ互角 55.1 54.2 数値は Google DeepMind 公式モデルカード(%)。バー長は 0〜100% を 350px に対応させた概念図
FIG.1 — エージェント・コーディングでは Flash が勝ち、推論では Pro が勝つ(公式モデルカードに基づき編集部作成)
📊 数字で見ると

Terminal-Bench 2.1: 76.2%(3.1 Pro 70.3%)— ターミナル操作・コーディング

MCP Atlas: 83.6%(同 78.2%)— ツールのオーケストレーション(エージェントの核)

Finance Agent v2: 57.9%(同 43.0%)— 多段の業務エージェントで大差

Humanity's Last Exam: 40.2%(同 44.4%)/ ARC-AGI-2: 72.1%(同 77.1%)— 深い推論はまだ Pro が上

「4倍速い」の実像 — 速度の裏にある初動の遅さ

マーケティングで最も目を引くのが「他のフロンティアモデルより出力トークン毎秒で 4 倍速い」という主張だ。ただしこれはGoogle の自称で、比較対象のモデルが明示されていない。鵜呑みにはできない数字なので、独立した第三者計測を併せて見たい。

計測サービス Artificial Analysis によれば、Flash の実測出力速度は 165.4 tokens/秒で、同価格帯の推論モデルの中央値(約 73.5)の倍以上。「速い」こと自体は裏が取れる。一方で見落としてはいけないのが初回トークンまでの遅延(TTFT)が約 22.46 秒という点だ。同価格帯の中央値(約 2.76 秒)より大幅に遅い。これは Flash が回答前に内部で「思考(thinking)」を行うモデルだからで、出し始めるまでは遅く、出し始めたら速いという二面性がある。チャットのように初動の体感が重要な用途では、この遅延を理解しておく必要がある。

⚠️ 「速い」の但し書き

「4 倍速い」は比較対象が非開示のため方向性として受け取るのが安全。独立計測の 165.4 tokens/秒は確かに高速だが、初回応答まで約 22 秒かかる。バッチ処理や長文生成では速度が効くが、対話の即応性を求める用途では初動の遅さが体感を損なう場合がある。

価格 — 出力$9で約25%安、でも「トークン浪費」に注意

API 価格は入力 $1.50 / 出力 $9.00(いずれも 100 万トークンあたり、出力は思考トークン込み)。キャッシュ入力は $0.15。前世代旗艦の Gemini 3.1 Pro が入力 $2.00(20 万トークン以下)/ 出力 $12.00 だったので、Flash は同帯で入力・出力ともおよそ 25% 安い。「一世代前の旗艦より賢い領域があるモデルが、より安い」という逆転が、今回いちばんの実用インパクトだ。

ただし安易に「安い」と結論づけるのは危うい。独立計測では、同等の総合品質に到達するのに Flash は 3.1 Pro より約 28% 多くトークンを消費する傾向が報告されている(思考トークンが嵩むため)。単価が安くても消費量が増えれば、ワークロードによっては総コストが逆転しうる。さらに視野を広げると、オープンモデルの DeepSeek V4-Flash は出力 $0.28 前後と桁違いに安く、品質僅差で激安という選択肢も存在する。「単価」ではなく「自分のタスクでの総コスト」で測るのが鉄則だ。コストとローカル運用の観点は、姉妹記事 「NVIDIA『RTX Spark』— ノートPCでAIを回す新チップはローカルLLM運用をどう変えるか」 も参考になる。

どこで使い、どこで使わないか — ルーティングの実務指針

結論はシンプルだ。Flash は「賢さの絶対値」で選ぶモデルではなく、「この作業に十分な品質を、最も低いコストと高い速度で」叶えるためのモデル。複数の独立分析が一致して示す使い分けは次の通りだ。

作業別のモデル振り分け Gemini 3.5 Flash に寄せる ・反復の速い対話・大量処理 ・画像/動画/音声/PDFのマルチモーダル ・MCP駆動のエージェント/サブ エージェントの大量展開 ・多段・長時間のワークフロー ・コスト効率を最優先する下書き → MCP Atlas 首位。出力$あたりの 知能効率が高い 上位モデルに残す ・正確性がレイテンシより重要な 本番のコード生成 ・深い推論(数学・抽象・難問) ・12.8万トークン超の長文脈読解 ・PC/デスクトップの直接操作 → SWE実務はClaude、推論はGPT-5.5 や3.1 Proが優位(第三者集計)
FIG.2 — 「賢さ」ではなく「作業に十分か」で振り分ける(公式・独立分析に基づき編集部作成)
👣 まずやること

(5分) Gemini アプリや AI Studio で、普段の質問を Flash に投げて体感を確かめる(Gemini アプリでは既定モデル)。

(15分) いつも上位モデルでやっている定番タスク(要約・分類・コード補助)を 同じプロンプトで Flash に投げ、品質差を自分の基準で測る。特別な難問より日常タスクの再現性で判断するのが実用的。

(30分) API 利用者は、入力 $1.50 / 出力 $9.00 と「思考トークンで消費が増える」前提で、自分のワークロードの総コストを試算。単価ではなく総額で比較する。

競合の中での位置 — 「最強」ではなく「効率の王」

他社と並べると、Flash の立ち位置がはっきりする。第三者の集計では、ターミナル系の絶対王者は GPT-5.5(Terminal-Bench 78.2%)で Flash(76.2%)は 2 位。実務的なソフトウェア工学の SWE-Bench Pro は Claude Opus 4.7 が 64.3% で首位(Flash 55.1%)。深い抽象推論の ARC-AGI-2 も GPT-5.5 が大きく上回る。つまり Flash は「どれか一つの指標で世界一」ではない

では何が強いのか。ツールのオーケストレーション(MCP Atlas で首位)と、マルチモーダル処理、そして何より「出力 $ あたりの知能効率」だ。エージェントを大量に並走させる、画像・動画を日常的に扱う、コスト効率で回す——こうした「規模とコスト」が効く現場で、Flash は上位モデルの仕事を肩代わりする。下の表は、最も確実な公式数値での Flash と旧旗艦 3.1 Pro の直接対比だ。

項目Gemini 3.5 FlashGemini 3.1 Proどちらが上か
Terminal-Bench 2.1(コーディング)76.2%70.3%Flash
MCP Atlas(ツール使用)83.6%78.2%Flash
Finance Agent v2(エージェント)57.9%43.0%Flash(大差)
SWE-Bench Pro(Public)55.1%54.2%ほぼ互角
MMMU-Pro(マルチモーダル)83.6%80.5%Flash
Humanity's Last Exam(推論)40.2%44.4%3.1 Pro
ARC-AGI-2(抽象推論)72.1%77.1%3.1 Pro
API価格(入力/出力 per 1M)$1.50 / $9.00$2.00 / $12.00Flash(約25%安)
コンテキスト窓(入力/出力)1M / 64K1M / —

数値は Google DeepMind 公式モデルカードおよび ai.google.dev の価格表(2026年6月時点)より。GPT-5.5 / Claude などとの比較値は第三者集計を含むため、本表は公式数値が揃う 3.1 Pro との対比に限定した。

⚠️ 注意ポイント

本記事の数値・条件は 2026 年 6 月時点で公開されている公式発表・モデルカード・独立計測ベースです。価格や提供条件は変更されることがあるため、利用前に必ず Google 公式(ai.google.dev / blog.google)の最新情報を確認してください。また「Flash 世代として初めて前 Pro 世代を超えた」という表現は一部の第三者報道のもので、Google が『初』と公式に断言したソースは確認できていません。本記事は「特定領域で 3.1 Pro を上回る」までを事実として扱っています。デスクトップ操作(OSWorld)の数値は情報源間で食い違うため本記事では断定を避けました。

筆者の視点 — 「賢さ競争」から「効率競争」への転換点

INDEPENDENT ANALYSIS

筆者がこのリリースで重要だと考えるのは、ベンチの順位そのものより「下位モデルが一世代前の旗艦を侵食し始めた」という構造変化だ。これまでモデル選びは「いま一番賢いのはどれか」という一次元の競争だった。だが Flash は、『この作業に十分な品質を、最も安く・速く』という二次元の問いを突きつける。多くの実務タスクは最高知能を必要としない。そこに「旧旗艦級の力を持つ安い高速モデル」が入ると、上位モデルの出番は本当に難しい推論や正確性が要る一点に絞られていく

同時に、過度な期待への歯止めも要る。推論と長文脈ではまだ Pro が上であり、トークン消費が約 28% 増えるため「安い」が必ずしも「総額が安い」を意味しない。初回応答 22 秒という初動の遅さも、用途を選ぶ。結局のところ Flash の価値は「最強」ではなく「適材適所のルーティングを前提にしたときの効率」にある。1 つの万能モデルを探す時代から、作業ごとに最適なモデルへ振り分ける設計(ルーティング)が当たり前になる時代へ——今回はその転換を象徴するリリースだと筆者は見ている。なお、上位帯の最新動向は姉妹記事 「Claude Fable 5登場 — 『ミュトス級』AIが一般公開された日に起きたこと」 も併せて読むと、フロンティア全体の地図が立体的になる。

Next Steps — 今日できること

🛠️ 実践のヒント

① 「いつものタスク」で置き換えテスト — 要約・分類・コード補助など日常作業を Flash に振り、品質が十分なら上位モデルから移して即コスト削減。

② 推論・長文脈は上位に残す — 難しい数学・抽象推論・12.8 万トークン超の読解は、まだ 3.1 Pro や他社上位の方が確実。

③ 「単価」でなく「総コスト」で測る — 思考トークンで消費が増える前提で、自分のワークロードの総額を試算してから本採用する。