Inhaltsverzeichnis
- 1. Release-Ueberblick — Datum, Verfuegbarkeit, Spec-Sheet
- 2. Was ist neu — 5 zentrale Verbesserungen
- 3. Benchmarks — direkter Vergleich mit Claude und Gemini
- 4. GPT-5.5 vs GPT-5.5 Pro — welches solltet ihr nehmen?
- 5. Preise — warum die Verdopplung?
- 6. Verfuegbarkeit nach ChatGPT-Plan
- 7. API-Spezifikationen und Entwicklerfunktionen
- 8. Codex-Integration und Super-app-Strategie
- 9. GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
- 10. Vorsicht — Tendenz zur „Selbstueberschaetzung"
- 11. Wann GPT-5.5 die richtige Wahl ist — nach Anwendungsfall
- FAQ
Am 23. April 2026 hat OpenAI „ChatGPT 5.5 (GPT-5.5)" veroeffentlicht. Von OpenAI selbst als „neue Klasse von Intelligenz fuer real work (echte Arbeit) und KI-Agenten" bezeichnet, erreicht das Modell 82,7% auf Terminal-Bench 2.0 und zieht damit klar an Anthropics Claude Opus 4.7 (69,4%) und Googles Gemini 3.1 Pro (68,5%) vorbei — mit SOTA (State of the Art) auf 14 Benchmarks.
Gleichzeitig hat sich der API-Listenpreis gegenueber GPT-5.4 verdoppelt ($5/$30 pro MTok), und Claude Opus 4.7 schlaegt es weiterhin auf SWE-Bench Pro. Die ehrliche Einschaetzung lautet: „das staerkste Modell, aber nicht universell das beste." Hinzu kommt eine dokumentierte Tendenz, selbstbewusst Antworten zu geben, auch wenn es etwas nicht weiss — Vorsicht ist deshalb in medizinischen, juristischen und regulierten Bereichen geboten.
Auf Basis von OpenAIs offizieller Veroeffentlichung, der OpenAI Developer Docs und mehrerer unabhaengiger Benchmark-Reports liefert dieser Artikel die vollstaendige Analyse: Was ist neu, die Benchmarks, Preise, Plan-Verfuegbarkeit, wie es sich gegen Claude und Gemini schlaegt und wie ihr das richtige Modell fuer eure Aufgabe waehlt.
1. Release-Ueberblick — Datum, Verfuegbarkeit, Spec-Sheet
| Punkt | Details |
|---|---|
| Offizieller Name | GPT-5.5 (in ChatGPT als „ChatGPT 5.5" angezeigt) |
| Release-Datum | 23. April 2026 |
| Entwickler | OpenAI |
| Varianten | GPT-5.5 (Standard) / GPT-5.5 Pro (tiefes Reasoning) |
| Kontextfenster | API: 1.050.000 Tokens (~1M) / Codex: 400K Tokens |
| Maximale Ausgabe | 128.000 Tokens |
| Wissensstand (Cutoff) | 1. Dezember 2025 |
| API-Preis (Standard) | $5 / 1M Tokens (Input) / $0,50 (Cached Input) / $30 (Output) |
| API-Preis (Pro) | $30 (Input) / $180 (Output) |
| Aufschlag fuer lange Prompts | Ueber 272K Tokens: Input 2x, Output 1,5x |
| Modalitaeten | Text Input/Output, Bild-Input (kein Audio oder Video) |
| ChatGPT-Plaene | Plus / Pro / Business / Enterprise (nicht im Free-Plan) |
| Hauptfunktionen | Function Calling, Structured Outputs, Streaming, Reasoning-Effort-Steuerung, Computer Use, MCP-Unterstuetzung |
2. Was ist neu — 5 zentrale Verbesserungen
1. Vollstaendiges Retraining des Basismodells (erstmals seit GPT-4.5)
GPT-5.5 ist das erste vollstaendige Retraining des Basismodells seit GPT-4.5. GPT-5, 5.1, 5.2 und 5.4 waren alle Fine-Tuning-Varianten desselben zugrundeliegenden Basismodells, aber GPT-5.5 wurde von Grund auf neu gebaut. Das Ergebnis sind gleichzeitige Verbesserungen bei Reasoning-Effizienz und aktuellem Wissen.
2. Deutliche Token-Effizienzgewinne (~40% Reduktion)
GPT-5.5 behaelt dieselbe Pro-Token-Latenz wie GPT-5.4 und reduziert gleichzeitig die fuer den Abschluss von Codex-Aufgaben benoetigten Output-Tokens um etwa 40%. Der Listenpreis hat sich verdoppelt, aber da das Output-Volumen um 40% sinkt, steigen laut OpenAI die Gesamtkosten fuer dieselbe Arbeit normalerweise weniger stark als erwartet.
OpenAI-Mitgruender Greg Brockman dazu:
„Es ist ein Modell, das mit weniger Tokens schneller und schaerfer denkt — genau diese Art Modell, verglichen mit etwas wie 5.4."
3. ~1M Kontextfenster (API)
Die API-Version waechst auf 1.050.000 Tokens (~1M). Die Codex-Integration liegt bei 400K. ~1M Tokens entsprechen etwa 1.400 Seiten A4-Text. Beachtet aber den nutzungsabhaengigen Aufschlag: Prompts ueber 272K Tokens loesen 2x Input- und 1,5x Output-Preise aus — sehr lange Kontexte erfordern also eine Kostenkalkulation.
4. Fuenfstufige Reasoning-Effort-Steuerung
Die API stellt reasoning.effort mit fuenf Stufen bereit:
- none: kein Reasoning (am schnellsten, am guenstigsten)
- low: leichtes Reasoning
- medium: Standard (ausgewogen)
- high: tiefes Reasoning (komplexe Aufgaben)
- xhigh: maximales Reasoning (am langsamsten und teuersten, hoechste Genauigkeit)
Das spiegelt den output_config.effort-Schalter von Claude Opus 4.7, und die gesamte Branche konvergiert auf „den Aufrufer die Reasoning-Tiefe steuern lassen".
5. Expert-SWE bei 73,1% — meistert 20-Stunden-Klasse-Aufgaben
Auf OpenAIs neu veroeffentlichtem internen Eval Expert-SWE (extrem komplexe Coding-Aufgaben mit einer medianen menschlichen Bearbeitungszeit von 20 Stunden) erreicht GPT-5.5 73,1% — ein Plus von 5,6 Punkten gegenueber den 68,5% von GPT-5.4. Das ist ein grosser Sprung fuer die Zuverlaessigkeit langlaufender autonomer Coding-Agenten.
3. Benchmarks — direkter Vergleich mit Claude und Gemini
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | Sieger |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% | 🥇 GPT-5.5 |
| GDPval (44 Berufe, Wissensarbeit) | 84.9% | — | — | 🥇 GPT-5.5 |
| OSWorld-Verified (PC-Automatisierung) | 78.7% | 78.0% | — | 🥇 GPT-5.5 (knapp) |
| BrowseComp | 84.4% (Pro: 90.1%) | — | — | 🥇 GPT-5.5 Pro |
| FrontierMath Tier 4 | 35.4% (Pro: 39.6%) | 22.9% | 16.7% | 🥇 GPT-5.5 |
| SWE-Bench Pro | 58.6% | 64.3% | — | 🥇 Claude Opus 4.7 |
| Tau2-bench Telecom (Kundensupport) | 98.0% | — | — | 🥇 GPT-5.5 |
| GPQA Diamond | 93.6% | — | — | 🥇 GPT-5.5 |
| Expert-SWE (OpenAI intern) | 73.1% | — | — | 🥇 GPT-5.5 |
Fazit: GPT-5.5 haelt SOTA auf 14 Benchmarks, Claude auf 4, Gemini auf 2
Ueber OpenAIs gesamten veroeffentlichten Benchmark-Satz haelt GPT-5.5 SOTA auf 14 Benchmarks, Claude Opus 4.7 auf 4 und Gemini 3.1 Pro auf 2. Der Gesamtvorsprung gehoert klar GPT-5.5.
Allerdings gewinnt Claude Opus 4.7 auf SWE-Bench Pro (produktionsnahe Coding-Aufgaben) weiterhin mit 64,3% gegenueber 58,6% von GPT-5.5. Fuer Coding-Arbeit lohnt es sich also weiterhin, Modelle nach Aufgabe aufzuteilen.
Drittanbieter-Verifizierung: CodeRabbit Code-Review-Eval
Der unabhaengige Code-Review-Service CodeRabbit berichtet folgende Verbesserungen bei GPT-5.5:
- Kuratierter Benchmark: erwartete Issue-Erkennung 58,3% → 79,2%, Praezision 27,9% → 40,6%
- Real-World-Datensatz: Issue-Erkennung 55,0% → 65,0%, Praezision 11,6% → 13,2%
CodeRabbits Einschaetzung: „Das Modell bevorzugt lokale Aenderungen, bewahrt das Verhalten und konzentriert sich tendenziell auf die tatsaechlichen Fehlerstellen." Mit anderen Worten — statt umfassender Rewrites neigt es zu zielgerichteten, praezisen Fixes.
4. GPT-5.5 vs GPT-5.5 Pro — welches solltet ihr nehmen?
| Punkt | GPT-5.5 (Standard) | GPT-5.5 Pro |
|---|---|---|
| API-Preis (Input) | $5 / 1M Tokens | $30 / 1M Tokens (6x) |
| API-Preis (Output) | $30 / 1M Tokens | $180 / 1M Tokens (6x) |
| BrowseComp | 84.4% | 90.1% |
| FrontierMath Tier 4 | 35.4% | 39.6% |
| ChatGPT-Plaene | Plus / Pro / Business / Enterprise | nur Pro / Business / Enterprise |
| Geeignet fuer | Alltagsaufgaben, Coding, Agenten | Wissenschaftliche Forschung, komplexe Mathematik, tiefes Reasoning |
Auswahlkriterien
- Standard-GPT-5.5 waehlen: allgemeines Coding, Schreiben, Agent-Workloads, kostenbewusste Nutzung
- GPT-5.5 Pro waehlen: Mathematik und wissenschaftliche Forschung, Verfassen von Papern, komplexe Entscheidungen — Genauigkeit vor Kosten
5. Preise — warum die Verdopplung?
API-Preise (Standard-GPT-5.5)
| Punkt | Preis | Hinweise |
|---|---|---|
| Input | $5,00 / 1M Tokens | 2x GPT-5.4 |
| Cached Input | $0,50 / 1M Tokens | 1/10 des regulaeren Inputs |
| Output | $30,00 / 1M Tokens | 2x GPT-5.4 |
| Lange Prompts (>272K Tokens) | Input 2x, Output 1,5x | Auf die gesamte Session angewendet |
| Batch API / Flex | 50% Rabatt | Fuer asynchrone Workloads |
| Priority-Verarbeitung | 2,5x | Fuer Low-Latency-Anforderungen |
| Regionale Verarbeitung (Data Residency) | +10% | Fuer Compliance-Anwendungen |
Warum die Verdopplung?
OpenAI hat die Preiserhoehung nicht direkt erklaert, aber die wahrscheinlichen Treiber sind:
- Kosten eines vollstaendigen Basismodell-Retrainings — der erste Neuaufbau seit GPT-4.5
- Einpreisung der Performance-Gewinne — deutliche Verbesserungen auf Terminal-Bench und anderen
- Token-Effizienz gleicht einen Teil aus — 40% weniger Output-Tokens federn den hoeheren Stueckpreis teilweise ab
Fuer Output-lastige Workloads ergibt sich eine effektive Kostensteigerung von etwa „2x x 0,6 = 1,2x". Aber bei Input-lastigen Aufgaben (Zusammenfassungen, Analysen) trifft euch die volle 2x-Erhoehung — das im Hinterkopf behalten.
6. Verfuegbarkeit nach ChatGPT-Plan
| Plan | Monatlich | GPT-5.5 | GPT-5.5 Pro | Codex |
|---|---|---|---|---|
| Free | $0 | ❌ nein | ❌ nein | ❌ nein |
| Plus | $20/Monat | ✅ ja | ❌ nein | ✅ ja |
| Pro | $200/Monat | ✅ ja | ✅ ja | ✅ inkl. Fast Mode |
| Business | nutzungsbasiert | ✅ ja | ✅ ja | ✅ ja |
| Enterprise | auf Anfrage | ✅ ja | ✅ ja | ✅ ja |
Free-Nutzer bleiben bei GPT-5 (oder 5.4)
GPT-5.5 ist im Free-Plan nicht verfuegbar — Free-Nutzer bleiben bei GPT-5 (oder 5.4). Plus ($20/Monat) ist der Einstiegspunkt.
7. API-Spezifikationen und Entwicklerfunktionen
Unterstuetzte Funktionen
- ✅ Function Calling
- ✅ Structured Outputs (JSON Schema)
- ✅ Streaming
- ✅ Reasoning-Effort-Steuerung (none/low/medium/high/xhigh)
- ✅ Tools: Web Search, File Search, Image Generation, Code Interpreter, Hosted Shell, Apply Patch, Skills, Computer Use, MCP, Tool Search
- ✅ Distillation (auf kleinere Modelle)
- ❌ Fine-Tuning: zum Launch nicht unterstuetzt
- ❌ Audio- / Video-Input oder -Output: nicht unterstuetzt
Rate Limits (Tier 5: hoechste)
- RPM (Requests pro Minute): 15.000
- TPM (Tokens pro Minute): 40.000.000
- Batch-Queue-Limit: 15.000.000.000
Reasoning-Effort-Beispiel (Python)
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "high"}, # none/low/medium/high/xhigh
input="Loese dieses komplexe Mathematikproblem Schritt fuer Schritt..."
)
print(response.output_text)
8. Codex-Integration und Super-app-Strategie
Codex Fast Mode
Parallel zum GPT-5.5-Release erhielt Codex einen Fast Mode:
- 1,5x schnellere Verarbeitung
- 2,5x die Kosten (in Credits)
- Verfuegbar in den Plaenen Pro / Business / Enterprise
Die Super-app-Strategie
OpenAI praesentierte zudem eine „Super-app"-Vision, die „ChatGPT + Codex + KI-Browser" in einem Angebot buendelt. Geplant ist die Auslieferung als ein einziges Enterprise-Paket — was OpenAI als „Schritt zu agentischerem, intuitiverem Computing" bezeichnet.
Konzeptionell ist das das „All-in-One-Paket zur Maximierung der Developer Experience"-Muster aus PaaS wie Vercel oder Next.js, uebertragen auf den KI-Agent-Bereich.
9. GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
| Punkt | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Release | 23. April 2026 | 16. April 2026 | Anfang 2026 |
| API-Input | $5/MTok | $5/MTok | nicht offengelegt |
| API-Output | $30/MTok | $25/MTok | nicht offengelegt |
| Kontext | 1.050K | 1.000K (200K Standard) | 1.000K |
| Wissensstand | 1. Dezember 2025 | ~Anfang 2025 | ~Anfang 2025 |
| SOTA-Benchmarks | 14 | 4 | 2 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% |
| SWE-Bench Pro | 58.6% | 64.3% | — |
| FrontierMath T4 | 35.4% | 22.9% | 16.7% |
| Staerken | Agenten, langlaufende Aufgaben, PC-Bedienung | Lange Coding-Sessions, Sicherheit, lange Texte | Multimodal, Google-Workspace-Integration |
Wie waehlen
- Beste Gesamtloesung + modernste Agent-Performance — GPT-5.5 (besonders wenn >$30/MTok Output akzeptabel sind)
- Lange autonome Coding-Sessions und sicherheitskritische Arbeit — Claude Opus 4.7 (gewinnt SWE-Bench Pro und hat guenstigere Output-Preise)
- Google-Workspace-Integration und Multimodalitaet — Gemini 3.1 Pro
10. Vorsicht — Tendenz zur „Selbstueberschaetzung"
Eine unabhaengige Analyse (Handy AI) weist auf eine Tendenz von GPT-5.5 hin, „selbstbewusst Antworten zu geben, auch wenn es etwas nicht weiss".
„Das Modell weiss mehr, aber es antwortet auch selbstbewusster ueber Dinge, die es nicht weiss."
Risikoreiche Anwendungsfaelle
- ⚠️ Medizinische Diagnose oder Verschreibungen — Falschinformationen koennen lebensbedrohlich sein
- ⚠️ Rechtsberatung oder Recherche zu Praezedenzfaellen — das Zitieren halluzinierter Faelle ist ein berufsethisches Problem
- ⚠️ Finanzberatung oder Steuerarbeit — regulatorisches Risiko
- ⚠️ Zitate in wissenschaftlichen Texten — bekannte Faelle, in denen nicht existierende Paper zitiert wurden
Gegenmassnahmen
- Faktenpruefung ist Pflicht — KI-Ausgaben nie unveraendert verwenden, sondern gegen Primaerquellen verifizieren
- Web-Search-Tool nutzen — das Modell aktuelle Informationen abrufen lassen
- Gegenpruefung mit Claude Opus 4.7 — bei genauigkeitskritischer Arbeit Antworten ueber mehrere Modelle abgleichen
- Anweisen, „ich weiss es nicht" zu sagen — per System-Prompt: „Wenn unsicher, sag das ausdruecklich"
11. Wann GPT-5.5 die richtige Wahl ist — nach Anwendungsfall
✅ GPT-5.5 waehlen bei
- Langlaufenden autonomen Coding-Agenten — Expert-SWE 73,1% ist Branchenspitze
- PC-Automatisierung / Computer Use — OSWorld 78,7% ist auf Augenhoehe mit Opus 4.7
- Automatisierung des Kundensupports — Tau2-bench 98,0% ist praktisch perfekt
- Fortgeschrittener Mathematik und wissenschaftlicher Forschung — FrontierMath T4 35,4% (deutlich ueber den 22,9% von Opus 4.7)
- Festlegung auf das OpenAI-Oekosystem — integriert mit ChatGPT, Codex, Operator
❌ GPT-5.5 meiden bei
- Coding auf SWE-Bench-Pro-Niveau in Produktion — Claude Opus 4.7 fuehrt weiterhin
- Genauigkeitskritischer Arbeit (medizinisch, juristisch, finanziell) — Vorsicht bei Halluzinationen
- Kosten als oberster Prioritaet — $30/MTok Output liegt am oberen Ende
- Wenn ihr eine kostenlose Option wollt — im Free-Plan nicht verfuegbar
- Audio- oder Video-Verarbeitung — nur Text + Bild-Input
FAQ
Q1. Wann wurde GPT-5.5 in ChatGPT verfuegbar?
Am 23. April 2026 (US-Zeit), in den Plaenen Plus, Pro, Business und Enterprise. GPT-5.5 Pro ist auf Pro, Business und Enterprise beschraenkt.
Q2. Kann ich GPT-5.5 im Free-Plan nutzen?
Nein. Der Free-Plan bleibt bei GPT-5 (oder 5.4). Fuer den Zugang zu GPT-5.5 braucht ihr mindestens den Plus-Plan fuer $20/Monat.
Q3. GPT-5.5 vs Claude Opus 4.7 — welches ist besser?
Insgesamt GPT-5.5 (SOTA auf 14 Benchmarks gegenueber 4 bei Claude). Aber auf SWE-Bench Pro gewinnt Claude Opus 4.7 mit 64,3% gegen 58,6% — fuer produktionsnahes Coding hat Claude also den Vorsprung. Claude ist auch beim Output guenstiger ($25/MTok gegenueber $30/MTok bei GPT-5.5).
Q4. Die API ist teurer geworden — wie halte ich die Kosten unter Kontrolle?
Ja, $5/$30 pro MTok ist 2x GPT-5.4. Aber der Output-Token-Verbrauch sinkt um etwa 40%, sodass die reale Kostensteigerung fuer Output-lastige Workloads typisch um die 1,2x liegt. Tipps zur Kostenkontrolle:
1. Batch API / Flex nutzen (50% Rabatt)
2. Cached Input nutzen ($0,50/MTok, 1/10 der regulaeren Rate)
3. reasoning.effort=low fuer leichtere Aufgaben verwenden
4. Prompts ueber 272K Tokens vermeiden
Q5. Was ist tatsaechlich anders an GPT-5.5 Pro?
Es hat staerkeres Reasoning, mit deutlichen Score-Steigerungen bei komplexer Mathematik (FrontierMath: 35,4% → 39,6%) und wissenschaftlichen Forschungsaufgaben. Der Haken ist der Preis — 6x der API-Tarif ($30 Input / $180 Output). Ausserhalb von Forschung und ernsthaftem Verfassen von Papern rechnet sich das Preis-Leistungs-Verhaeltnis oft nicht.
Q6. Wird Fine-Tuning unterstuetzt?
Stand April 2026 nein. Distillation (Training kleinerer Modelle aus den Ausgaben) wird unterstuetzt, sodass ihr GPT-5.5-Ausgaben nutzen koennt, um etwas wie GPT-5 nano zu trainieren.
Q7. Worauf sollte ich bei Verwendung des 1M-Kontexts achten?
Prompts ueber 272K Tokens loesen einen Aufschlag von 2x Input und 1,5x Output ueber die gesamte Session aus. Wer eine API rund um 1M-Token-Nutzung designt, sollte die Kosten vorab durchrechnen.
Q8. Wann ist der Wissensstand von GPT-5.5?
1. Dezember 2025. Alles danach (ab Januar 2026) ist nicht in den Trainingsdaten — das Web-Search-Tool ist also faktisch erforderlich fuer aktuelle Informationen.
Q9. Sind Halluzinationen besser geworden?
Eine unabhaengige Analyse besagt: „Die Wissensbasis ist gewachsen, aber auch das Selbstvertrauen des Modells in Dingen, die es nicht weiss." OpenAI behauptet offiziell Sicherheitsverbesserungen, aber bei medizinischer, juristischer oder finanzieller Arbeit bleibt Faktenpruefung Pflicht.
Q10. Funktioniert meine bestehende GPT-5-App einfach so?
Die API-Kompatibilitaet ist erhalten — der Wechsel der Model-ID von gpt-5 auf gpt-5.5 reicht zur Migration. Allerdings lohnt sich ein Design-Durchgang, wenn ihr neue Funktionen nutzen wollt (wie den reasoning.effort-Parameter oder die Pro-Variant-ID).
Zusammenfassung: GPT-5.5 ist das staerkste, aber nicht universell das beste Modell
GPT-5.5 haelt SOTA auf 14 Benchmarks und zieht klar an Claude Opus 4.7 und Gemini 3.1 Pro vorbei, um die Branchenspitze zurueckzuerobern. Besonders stark ist es bei Agent-Aufgaben, PC-Automatisierung, langlaufendem autonomen Coding sowie Mathematik und wissenschaftlicher Forschung.
Gleichzeitig verliert es auf SWE-Bench Pro weiterhin gegen Claude Opus 4.7, zeigt eine Tendenz zu „selbstbewussten Halluzinationen" und kommt mit einer Verdopplung des API-Preises — also kein bedingungsloser Sieg.
Die kluegere Strategie ist „das richtige Modell — GPT-5.5, Claude Opus 4.7 oder Gemini 3.1 Pro — fuer die jeweilige Aufgabe waehlen." Ganz auf das OpenAI-Oekosystem setzen? GPT-5.5. Lange Coding-Sessions und sicherheitskritische Arbeit? Claude. Google-Workspace-Integration? Gemini. Multi-Model-Betrieb wird zum Standard 2026.
Verwandte Artikel
- Claude Opus 4.7 Release im Detail — vollstaendige Details zum direkten Konkurrenten
- Claude Opus 4.7 Migrationsleitfaden — Wechsel von 4.6 auf 4.7
- Claude vs ChatGPT Preisvergleich — wie sich die Plan-Strukturen vergleichen
- Was ist Next.js? — das React-Framework, das die KI staendig empfiehlt