目次
2026年4月23日、OpenAIが 「ChatGPT 5.5(GPT-5.5)」 をリリースしました。OpenAI自身が「real work(実務)とAIエージェントのための新しい知性のクラス」と呼ぶ本モデルは、Terminal-Bench 2.0で82.7%を記録し、Anthropic Claude Opus 4.7(69.4%)とGoogle Gemini 3.1 Pro(68.5%)を大きく引き離して14のベンチマークでSOTA(最高水準)を奪還しました。
一方で、API価格はGPT-5.4の2倍($5/$30 per MTok)に跳ね上がり、SWE-Bench ProではClaude Opus 4.7に依然として負けるなど、「最強だが万能ではない」のがリアルな評価です。さらに「知らないことを自信を持って答える傾向」が指摘されており、医療・法律・規制業務での扱いには注意が必要です。
この記事では、公式OpenAI発表・OpenAI Developer Docs・複数の独立ベンチマークレポートを基に、GPT-5.5の新機能・ベンチマーク・価格・プラン別提供・Claude/Geminiとの比較・用途別選び方までを完全解説します。
1. リリース概要——日付・提供範囲・スペック一覧
| 項目 | 内容 |
|---|---|
| 正式名称 | GPT-5.5(ChatGPTでは「ChatGPT 5.5」と表示) |
| リリース日 | 2026年4月23日 |
| 開発元 | OpenAI |
| モデル種別 | GPT-5.5(標準)/ GPT-5.5 Pro(高推論) |
| コンテキストウィンドウ | API: 1,050,000トークン(約1M)/Codex: 400Kトークン |
| 最大出力 | 128,000トークン |
| 知識カットオフ | 2025年12月1日 |
| API価格(標準) | $5 / 1Mトークン(入力)/ $0.50(キャッシュ入力)/ $30(出力) |
| API価格(Pro) | $30(入力)/ $180(出力) |
| 長文プロンプト追加料金 | 272Kトークン超: 入力2倍 ・出力1.5倍 |
| 対応モダリティ | テキスト入出力 / 画像入力(音声・動画は非対応) |
| ChatGPTプラン | Plus / Pro / Business / Enterprise(無料プランは非対応) |
| 主要機能 | 関数呼び出し、構造化出力、ストリーミング、推論effort調整、Computer Use、MCP対応 |
2. 何が新しいか——5つの主要強化点
① ベースモデルの完全再学習(GPT-4.5以来)
GPT-5.5はGPT-4.5以来となるベースモデルの完全再学習版です。GPT-5、5.1、5.2、5.4はすべて同じベースモデルから派生したファインチューン版でしたが、GPT-5.5は土台から作り直されています。これにより、推論効率と知識更新が同時に向上しました。
② トークン効率の大幅改善(〜40%削減)
GPT-5.5は、GPT-5.4と同じ1トークンあたりのレイテンシを維持しつつ、Codexタスク完了に必要な出力トークンを約40%削減しました。価格は2倍ですが、出力量が4割減るため、同じ作業の総コストは想定より小さい増加で済むケースが多いとOpenAIは説明しています。
OpenAI共同創業者Greg Brockman氏のコメント:
「より少ないトークンで、より速く、よりシャープに考えられる——5.4のようなモデルと比べてそういうモデルだ」
③ コンテキストウィンドウ約1M(API版)
API版は1,050,000トークン(約1M)に拡大。Codex統合版は400K。約1Mというのは、A4用紙約1,400ページ分のテキストに相当します。ただし272Kトークンを超えると入力単価が2倍、出力単価が1.5倍になる従量課金制なので、超長文処理は要コスト試算です。
④ 推論effortの5段階制御
API呼び出し時に reasoning.effort パラメータで以下5段階を選択可能:
- none: 推論なし(最速・最安)
- low: 軽い推論
- medium: デフォルト(バランス)
- high: 高度な推論(複雑なタスク)
- xhigh: 最大推論(時間とコスト最大、精度最高)
これは Claude Opus 4.7 の output_config.effort と類似する仕組みで、業界全体が「推論深度を呼び出し側が制御する」方向に収束しつつあります。
⑤ Expert-SWE評価で73.1%——20時間級タスクをこなす
OpenAIが新たに公開した社内評価Expert-SWE(中央値20時間の人間作業時間を要する超複雑コーディングタスク)でGPT-5.5は73.1%を達成。GPT-5.4の68.5%から5.6ポイント向上し、長時間にわたる自律的コーディングエージェント運用の精度が大幅に改善したことを示しています。
3. ベンチマーク——Claude/Geminiとの直接比較
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | 勝者 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% | 🥇 GPT-5.5 |
| GDPval(44職種の知識作業) | 84.9% | — | — | 🥇 GPT-5.5 |
| OSWorld-Verified(PC自動操作) | 78.7% | 78.0% | — | 🥇 GPT-5.5(僅差) |
| BrowseComp | 84.4%(Pro: 90.1%) | — | — | 🥇 GPT-5.5 Pro |
| FrontierMath Tier 4 | 35.4%(Pro: 39.6%) | 22.9% | 16.7% | 🥇 GPT-5.5 |
| SWE-Bench Pro | 58.6% | 64.3% | — | 🥇 Claude Opus 4.7 |
| Tau2-bench Telecom(顧客対応) | 98.0% | — | — | 🥇 GPT-5.5 |
| GPQA Diamond | 93.6% | — | — | 🥇 GPT-5.5 |
| Expert-SWE(OpenAI独自) | 73.1% | — | — | 🥇 GPT-5.5 |
結論:GPT-5.5は14ベンチマークでSOTA、Claudeは4ベンチマークでSOTA、Geminiは2
OpenAIの公開ベンチマーク全体を見ると、GPT-5.5は14のベンチマークで最高水準を記録、Claude Opus 4.7は4つ、Gemini 3.1 Proは2つでSOTAを保持しています。総合力ではGPT-5.5の優位性が明確です。
ただしSWE-Bench Pro(実プロダクション級コーディングタスク)では依然Claude Opus 4.7が64.3%でGPT-5.5の58.6%を上回ります。コーディング用途であれば、用途別に使い分ける価値が依然としてあります。
第三者検証:CodeRabbitのコードレビュー評価
独立コードレビューサービスのCodeRabbitによる検証では、GPT-5.5は以下のように改善:
- キュレーション済みベンチマーク: 期待される問題発見率 58.3% → 79.2%、精度 27.9% → 40.6%
- 実世界データセット: 問題検出率 55.0% → 65.0%、精度 11.6% → 13.2%
CodeRabbitは「モデルは局所的な変更を好み、振る舞いを保ち、実際の障害ポイントに集中する傾向がある」と評価しています。広範な書き換えではなく、的確な修正を提案する傾向が強まっているということです。
4. GPT-5.5 vs GPT-5.5 Pro——どっちを使うべきか
| 項目 | GPT-5.5(標準) | GPT-5.5 Pro |
|---|---|---|
| API価格(入力) | $5 / 1M tokens | $30 / 1M tokens(6倍) |
| API価格(出力) | $30 / 1M tokens | $180 / 1M tokens(6倍) |
| BrowseComp | 84.4% | 90.1% |
| FrontierMath Tier 4 | 35.4% | 39.6% |
| ChatGPTプラン | Plus / Pro / Business / Enterprise | Pro / Business / Enterprise のみ |
| 用途 | 日常タスク、コーディング、エージェント | 科学研究、複雑数学、高度な推論 |
使い分け基準
- 標準GPT-5.5を選ぶ: 一般的なコーディング、ライティング、エージェント運用、コスト重視
- GPT-5.5 Proを選ぶ: 数学・科学研究、論文執筆、複雑な意思決定、コストよりも精度
5. 価格体系——2倍値上げの理由
API価格(標準GPT-5.5)
| 項目 | 料金 | 備考 |
|---|---|---|
| 入力 | $5.00 / 1M tokens | GPT-5.4の2倍 |
| キャッシュ入力 | $0.50 / 1M tokens | 通常入力の1/10 |
| 出力 | $30.00 / 1M tokens | GPT-5.4の2倍 |
| 長文プロンプト(>272Kトークン) | 入力2倍・出力1.5倍 | セッション全体に適用 |
| Batch API / Flex | 50%割引 | 非同期処理向け |
| Priority処理 | 2.5倍 | 低レイテンシ要求向け |
| 地域処理(データレジデンシー) | +10% | 規制対応用 |
なぜ2倍値上げ?
OpenAIは値上げの理由を直接的には説明していませんが、以下が考えられます:
- ベースモデル完全再学習のコスト——GPT-4.5以来初めての土台再構築
- 性能向上に対するプライシング——Terminal-Bench等の大幅向上分
- トークン効率改善で実コストは想定ほど増えない——出力40%削減と相殺
実質的なコスト増分は、出力主体のタスクで「2倍 × 0.6倍 = 1.2倍」程度と試算可能です。ただし入力主体(要約・分析)のタスクでは2倍コスト増を直撃する点に注意。
6. ChatGPTプラン別提供状況
| プラン | 月額 | GPT-5.5 | GPT-5.5 Pro | Codex |
|---|---|---|---|---|
| Free | $0 | ❌ なし | ❌ なし | ❌ なし |
| Plus | $20/月 | ✅ 利用可 | ❌ なし | ✅ 利用可 |
| Pro | $200/月 | ✅ 利用可 | ✅ 利用可 | ✅ Fast Mode含 |
| Business | 従量制 | ✅ 利用可 | ✅ 利用可 | ✅ 利用可 |
| Enterprise | 応相談 | ✅ 利用可 | ✅ 利用可 | ✅ 利用可 |
無料ユーザーは引き続きGPT-5(または5.4)
無料プランではGPT-5.5は利用できません。GPT-5(または5.4)を引き続き使用することになります。Plus($20/月)以上が最低ラインです。
7. API仕様と開発者向け機能
サポート機能
- ✅ 関数呼び出し(Function Calling)
- ✅ 構造化出力(Structured Outputs / JSON Schema)
- ✅ ストリーミング
- ✅ 推論effort制御(none/low/medium/high/xhigh)
- ✅ ツール: Web検索、ファイル検索、画像生成、Code Interpreter、Hosted Shell、Apply Patch、Skills、Computer Use、MCP、Tool Search
- ✅ ディスティレーション(小型モデルへの蒸留)
- ❌ ファインチューニング(現時点で非対応)
- ❌ 音声・動画入出力(非対応)
レート上限(Tier 5: 最高)
- RPM(Requests Per Minute): 15,000
- TPM(Tokens Per Minute): 40,000,000
- Batch Queue Limit: 15,000,000,000
推論effortの呼び出し例(Python)
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "high"}, # none/low/medium/high/xhigh
input="複雑な数学問題をステップバイステップで解いて..."
)
print(response.output_text)
8. Codex統合とSuper-app戦略
Codex Fast Mode
GPT-5.5リリースに合わせてCodexにFast Modeが追加されました。
- 1.5倍高速な処理
- 2.5倍のコスト(クレジット消費)
- Pro / Business / Enterpriseプランで利用可
Super-app戦略
OpenAIは「ChatGPT + Codex + AIブラウザ」を統合した「Super-app」構想を打ち出しました。エンタープライズ向けに、これらを単一のサービスとしてバンドル提供する方針で、「より agentic で直感的なコンピューティングへの一歩」と位置づけています。
これは PaaS(Vercel等) や Next.js のように「全部入りパッケージで開発体験を最大化する」発想を、AIエージェント領域に持ち込んだものと言えます。
9. Claude Opus 4.7 / Gemini 3.1 Proとの徹底比較
| 項目 | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| リリース | 2026年4月23日 | 2026年4月16日 | 2026年初頭 |
| API入力 | $5/MTok | $5/MTok | 非公開 |
| API出力 | $30/MTok | $25/MTok | 非公開 |
| コンテキスト | 1,050K | 1,000K(200K標準) | 1,000K |
| 知識カットオフ | 2025年12月1日 | 2025年初頭頃 | 2025年初頭頃 |
| SOTAベンチマーク数 | 14 | 4 | 2 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% |
| SWE-Bench Pro | 58.6% | 64.3% | — |
| FrontierMath T4 | 35.4% | 22.9% | 16.7% |
| 得意分野 | エージェント、長時間タスク、PC操作 | 長時間コーディング、安全性、長文記述 | マルチモーダル、Google Workspace連携 |
選び方の指針
- 総合力・最新エージェント性能 → GPT-5.5(特にコスト>$30/MTok許容なら)
- 長時間自律コーディング・安全性重視 → Claude Opus 4.7(SWE-Bench Proで勝利、出力単価も安い)
- Google Workspace連携・マルチモーダル → Gemini 3.1 Pro
10. 注意点——「自信過剰」傾向に要警戒
独立分析(Handy AI)によれば、GPT-5.5には「知らないことに対しても自信を持って答える傾向」が指摘されています。
「モデルは知識量が増えたが、知らないこともより自信を持って答えるようになった」
影響を受けやすい用途
- ⚠️ 医療診断・処方——誤情報は致命的
- ⚠️ 法律相談・判例調査——ハルシネーション判例の引用は職業倫理問題に
- ⚠️ 金融助言・税務処理——規制違反リスク
- ⚠️ 論文執筆の引用——存在しない論文を引用する事例
対策
- ファクトチェック必須——AI出力をそのまま使わず、一次情報源で検証
- Web検索ツールを併用——リアルタイム情報を取りに行かせる
- Claude Opus 4.7との二重検証——精度クリティカル業務では複数モデルで答え合わせ
- 「分からない」と言うよう指示——システムプロンプトで「不確かな場合は明示せよ」を明記
11. 用途別おすすめ——いつGPT-5.5を選ぶか
✅ GPT-5.5を選ぶべきケース
- 長時間の自律コーディングエージェント——Expert-SWE 73.1%は業界最強クラス
- PC自動操作・Computer Use——OSWorld 78.7%はOpus 4.7と互角
- 顧客サポート自動化——Tau2-bench 98.0%は事実上満点
- 高度な数学・科学研究——FrontierMath T4 35.4%(Opus 4.7の22.9%を大きく上回る)
- OpenAIエコシステム重視——ChatGPT、Codex、Operatorと統合
❌ GPT-5.5を避けたほうがいいケース
- SWE-Bench Pro級の実プロダクションコーディング——Claude Opus 4.7が依然優位
- 正確性が絶対の業務(医療・法律・金融)——ハルシネーション傾向に注意
- 低コスト最優先——出力$30/MTokは最高クラスの単価
- 無料利用希望——Free Planでは使えない
- 音声・動画処理——テキスト+画像のみ対応
FAQ
Q1. GPT-5.5はChatGPTでいつ使えるようになりましたか?
2026年4月23日(米国時間)からPlus、Pro、Business、Enterpriseプランで提供開始されました。GPT-5.5 ProはPro、Business、Enterpriseのみ。
Q2. 無料プランでもGPT-5.5を使えますか?
使えません。無料プランは引き続きGPT-5(または5.4)で、GPT-5.5を使うには月額$20以上のPlus以上のプランが必要です。
Q3. GPT-5.5 vs Claude Opus 4.7、どっちが優れていますか?
総合的にはGPT-5.5(14ベンチマークでSOTA vs Claudeの4)。ただしSWE-Bench ProではClaude Opus 4.7が64.3%でGPT-5.5の58.6%を上回るので、実プロダクション級コーディングならClaude優位。価格面でもClaudeの出力$25/MTokがGPT-5.5の$30/MTokより安いです。
Q4. APIは値上げですか?コスト管理はどうすれば?
はい、$5/$30 per MTokで GPT-5.4の2倍です。ただし出力トークン消費が約40%減るため、出力主体のタスクなら実質コスト増は約1.2倍程度で抑えられます。コスト管理のコツは:
①Batch API / Flex(50%割引)の活用
②キャッシュ入力($0.50/MTok、通常の1/10)の活用
③reasoning.effort=lowで軽いタスクをこなす
④272Kトークン超のプロンプトを避ける
Q5. GPT-5.5 ProはGPT-5.5の何が違う?
推論能力が強化されており、特に複雑な数学(FrontierMath: 35.4%→39.6%)と科学研究タスクでスコアが上がります。ただしAPI価格は6倍($30入力/$180出力)と非常に高額。論文執筆や研究用途以外ではコスパが悪い場合が多いです。
Q6. ファインチューニングはできますか?
2026年4月時点では非対応です。「ディスティレーション(小型モデルへの蒸留)」は対応しているので、GPT-5.5の出力を使ってGPT-5 nanoなどを訓練するのは可能です。
Q7. 1Mコンテキストを使うときの注意点は?
272Kトークンを超えるプロンプトはセッション全体で入力2倍、出力1.5倍の追加料金が発生します。1Mトークンを使うつもりで API設計するなら、コスト試算は必須です。
Q8. GPT-5.5の知識カットオフはいつまで?
2025年12月1日です。それ以降の出来事(2026年1月以降)は学習されておらず、Web検索ツール併用が前提となります。
Q9. ハルシネーション(幻覚)は改善しましたか?
独立分析では「知識量は増えたが、知らないことを自信を持って答える傾向が強くなった」との指摘があります。OpenAI公式は安全性向上を主張していますが、医療・法律・金融などクリティカル業務では引き続きファクトチェック必須です。
Q10. 既存のGPT-5アプリは何もせずに動きますか?
API互換性は保たれているため、モデルIDを gpt-5 から gpt-5.5 に変えるだけで切り替え可能です。ただし、reasoning.effortパラメータの新設や、Pro版の別モデルID指定など、新機能を活用するには設計を見直す価値があります。
まとめ:GPT-5.5は「最強だが万能ではない」
GPT-5.5は14のベンチマークでSOTAを記録し、Claude Opus 4.7とGemini 3.1 Proを引き離して業界トップに返り咲いた強力なモデルです。特にエージェントタスク、PC自動操作、長時間自律コーディング、数学・科学研究で大きく性能を伸ばしています。
一方でSWE-Bench ProではClaude Opus 4.7に依然負けていることや、「自信過剰なハルシネーション」傾向、API価格2倍値上げなど、無条件でベストとは言えない要素もあります。
賢い選択肢は——「タスクに応じてGPT-5.5、Claude Opus 4.7、Gemini 3.1 Proを使い分ける」ことです。OpenAIエコシステム全部入りで使うならGPT-5.5、長時間コーディングと安全性重視ならClaude、Google Workspace連携ならGemini。マルチモデル運用が2026年のスタンダードになりつつあります。
関連記事
- Claude Opus 4.7リリース完全解説 — 直接の競合モデルOpus 4.7の詳細
- Claude Opus 4.7 移行ガイド — 4.6から4.7への移行手順
- Claude vs ChatGPT 価格比較 — 両者のプラン構造
- Next.jsとは? — AIが推すReactフレームワーク