Claude Code vs Codex | Preise, Benchmarks und Stärken

Claude Code vs Codex: Welches Tool passt zu dir? Preise, Leistung und Einsatzgebiete im Vergleich [2026]

„Ich möchte KI zum Programmieren nutzen – aber soll ich Claude Code oder Codex nehmen?"

2026 gibt es mehr KI-Coding-Tools als je zuvor. Zwei stechen besonders hervor: Claude Code von Anthropic und Codex von OpenAI. Beide sind KI-Agenten, die im Terminal laufen und eigenständig Dateien lesen und schreiben, Tests ausführen und Git-Operationen durchführen können.

In diesem Artikel beantworten wir die Frage „Welches ist nun besser?" anhand von drei Kriterien: Preise, Leistung und Stärken. So findest du das Tool, das zu deinem Entwicklungsstil und Budget passt.

Inhaltsverzeichnis

1. Claude Code und Codex: Was sind die Unterschiede?
2. Preisvergleich
3. Leistungsvergleich (Benchmarks)
4. Funktionsvergleich
5. Stärken und Schwächen
6. Entscheidungshilfe nach Anwendungsfall
7. Häufig gestellte Fragen

1. Claude Code und Codex: Was sind die Unterschiede?

Für alle, die sich fragen „Was ist ein KI-Coding-Tool eigentlich?": Beide sind KI-Assistenten, die im Terminal laufen und an deiner Stelle Code schreiben, Bugs beheben und Tests ausführen. Im Grunde ein „KI-Pair-Programmer".

Kriterium	Claude Code	Codex
Entwickler	Anthropic	OpenAI
Nutzung	Terminal / IDE / Desktop-App	Terminal / IDE / ChatGPT-Oberfläche
KI-Modell	Claude Sonnet 4.6 / Opus 4.6	GPT-5.4 / GPT-5.3-Codex
Open Source	Nein (proprietär)	Ja (CLI unter Apache 2.0)
Mindestpreis	20 $/Monat (Pro-Plan)	20 $/Monat (Plus-Plan)

Ein wichtiger Punkt: Codex bietet zwei Modi – „Terminal (CLI)" und „Cloud". Der Terminal-Modus funktioniert lokal und interaktiv, genau wie Claude Code. Der Cloud-Modus ermöglicht es, Aufgaben über die ChatGPT-Oberfläche einzureichen und asynchron auf die Ergebnisse zu warten. Claude Code ist ausschließlich lokal. Dieser Artikel vergleicht hauptsächlich die Terminal-Versionen und geht daneben auf die spezifischen Vorteile des Codex-Cloud-Modus ein.

Architekturvergleich Claude Code vs Codex

2. Preisvergleich

Beginnen wir mit dem Thema, das alle interessiert: die Kosten. Beide Tools sind ab 20 $/Monat verfügbar (Quellen: offizielle Preisseite von Claude und offizielle Preisseite von ChatGPT, Stand März 2026).

Plan	Claude Code	Codex
Kostenlos	Nicht verfügbar	Nicht verfügbar
20 $/Monat	Pro (Grundkontingent inklusive)	Plus (Grundkontingent inklusive)
100 $/Monat	Max 5x (5-faches Kontingent)	—
200 $/Monat	Max 20x (20-faches Kontingent)	Pro (ca. 6- bis 7-faches Kontingent)

Achtung: Das Konzept „Kontingent" unterscheidet sich. Claude Code arbeitet mit Token-Verbrauch (proportional zum Textvolumen im Austausch mit der KI). Codex nutzt ein Credit-System, dessen Verbrauch je nach Modell und Aufgabenkomplexität variiert. Mit dem 20-$/Monat-Plan kommt man bei beiden im Alltag gut zurecht, für große Codemengen braucht man aber einen Max- oder Pro-Plan.

Was ist ein Token? Die kleinste Einheit, in der KI Text verarbeitet. Im Deutschen entspricht ein Token etwa 3/4 eines Wortes. Je länger der Code, den die KI lesen oder erzeugen soll, desto mehr Tokens werden verbraucht.

Beide Tools lassen sich auch über eine API-Key im Pay-per-Use-Modell nutzen. Die Preise pro Million Tokens sind wie folgt (Quellen: Anthropic-API-Preisliste und Codex-Preisseite):

Modell	Eingabe	Ausgabe
Claude Sonnet 4.6	3,00 $	15,00 $
Claude Opus 4.6	5,00 $	25,00 $
codex-mini (für Codex CLI)	1,50 $	6,00 $

Im Pay-per-Use-Vergleich kostet codex-mini weniger als die Hälfte von Claude Sonnet. Allerdings unterscheiden sich auch die Leistungen, sodass der Preis allein nicht ausschlaggebend ist. Schauen wir uns im nächsten Abschnitt die Benchmarks an.

Einen vollständigen Preisuberblick findest du in unserem Vergleich der Preise von Claude und ChatGPT.

3. Leistungsvergleich (Benchmarks)

Der branchenweit meistgenutzte Benchmark für KI-Coding-Tools ist SWE-bench (Daten aus dem offiziellen SWE-bench-Leaderboard und den offiziellen Blogs der Anbieter).

Was ist SWE-bench? Ein Benchmark, der KI mit Bugfix-Aufgaben aus echten Open-Source-Projekten konfrontiert und den Anteil korrekt gelöster Aufgaben misst. Je höher der Score, desto stärker die praktische Programmierfähigkeit.

Modell	SWE-bench Verified
Claude Opus 4.6	80,8 %
Claude Sonnet 4.6	79,6 %
GPT-5.4 (neuestes Codex-Modell)	78,2 %
GPT-5.3-Codex	78,0 %

Stand März 2026 liegt Claude Opus 4.6 mit 80,8 % an der Spitze. Der Abstand beträgt jedoch nur wenige Prozentpunkte, und im Entwicklungsalltag ist der Unterschied oft nicht spürbar.

Wichtig: OpenAI hat selbst die Zuverlässigkeit von SWE-bench Verified infrage gestellt (mögliche Kontamination der Testdaten) und empfiehlt den anspruchsvolleren SWE-bench Pro. Dort erreicht GPT-5.4 57,7 %, doch für Claude liegen unter denselben Bedingungen kaum veröffentlichte Daten vor, was einen direkten Vergleich erschwert.

Benchmarks sind Richtwerte. Am zuverlässigsten findest du heraus, welches Tool zu deinem Projekt passt, indem du es ausprobierst.

4. Funktionsvergleich

Werfen wir einen Blick auf die wichtigsten Funktionen beider Tools.

Funktion	Claude Code	Codex
Dateien lesen/schreiben	Ja	Ja
Befehle ausführen	Ja	Ja
Git-Operationen / PR erstellen	Ja	Ja
Bilder lesen	Ja	Ja
Parallele Agenten	Ja (Sub-Agenten)	Ja (Sub-Agenten)
Externe Tool-Integration (MCP)	Ja	Ja
IDE-Integration	VS Code / JetBrains	VS Code / Cursor
Asynchrone Cloud-Ausführung	Nein	Ja (Codex Cloud)
PC-Bildschirmsteuerung	Ja (Computer Use)	Nein

Die Grundfunktionen sind nahezu identisch. Die Unterschiede zeigen sich in zwei Bereichen:

Nur bei Codex: Asynchrone Cloud-Ausführung

Codex bietet den Modus „Codex Cloud", mit dem Aufgaben über die ChatGPT-Oberfläche eingereicht und asynchron in der Cloud verarbeitet werden. Du kannst eine Aufgabe absenden und dich in der Zwischenzeit anderen Dingen widmen. Mehrere Aufgaben lassen sich parallel bearbeiten, auch solche, die über 7 Stunden dauern.

Claude Code bietet diesen Modus nicht. Es arbeitet im Terminal in Echtzeit-Interaktion, was dafür Kurswechsel und Feinanpassungen während der Arbeit erleichtert.

Nur bei Claude Code: Computer Use

Claude Code verfügt über die einzigartige Funktion Computer Use. Damit kann die KI Browser und Anwendungen auf deinem PC direkt steuern. So lässt sich der gesamte Ablauf „Code ändern, Ergebnis im Browser prüfen, bei Bedarf nachbessern" vollständig automatisieren. Codex bietet diese Funktion nicht.

Projekt-Konfigurationsdatei: CLAUDE.md vs AGENTS.md

Beide Tools ermöglichen es, eine Konfigurationsdatei im Projektstammverzeichnis abzulegen, um der KI projektspezifische Regeln mitzuteilen.

Claude Code: CLAUDE.md — ein Übergabeprotokoll für die KI mit Coding-Konventionen, Build-Befehlen und Architekturprinzipien, das zwischen Sitzungen erhalten bleibt
Codex: AGENTS.md — dasselbe Konzept, jedoch als offener Standard der Agentic AI Foundation (unter der Linux Foundation) konzipiert und mit anderen Tools (Google Jules, Cursor usw.) kompatibel

5. Stärken und Schwächen

Stärken von Claude Code

Größere Refactorings: Änderungen über Dutzende von Dateien hinweg lassen sich in Echtzeit verfolgen, und ein Kurswechsel ist jederzeit möglich
Tests in der lokalen Umgebung: Direkter Zugriff auf deine Datenbank und Docker für Tests unter produktionsnahen Bedingungen
Automatisierte visuelle Prüfung: Dank Computer Use kann die KI den Browser steuern, das Ergebnis prüfen und automatisch korrigieren
Windows-Unterstützung: Läuft nativ auf macOS, Linux und Windows (die Windows-Unterstützung von Codex CLI ist noch experimentell)

Schwächen von Claude Code

Aufgaben können nicht im Hintergrund laufen gelassen werden (Echtzeit-Dialog erforderlich)
Das Terminal ist während der Sitzung belegt
Quellcode nicht veröffentlicht (proprietär)

Stärken von Codex

Parallele Aufgabenverarbeitung: Mit Codex Cloud kannst du mehrere Bugfixes gleichzeitig einreichen und anschließend gebündelt prüfen. Ideal, wenn du „10 Bugs auf einmal abarbeiten" willst
Asynchroner Workflow: Reiche Aufgaben ein und konzentriere dich auf andere Arbeit. Die Ergebnisse kommen als PR (Pull Request)
Nutzung über ChatGPT: Kein Terminal nötig — Coding-Aufgaben lassen sich direkt über die ChatGPT-Oberfläche beauftragen, auch ohne Kommandozeilen-Erfahrung
CLI ist Open Source: Der Quellcode ist unter Apache 2.0 veröffentlicht und kann eingesehen und angepasst werden

Schwächen von Codex

Im Cloud-Modus kann der Kurs während der Ausführung nicht geändert werden (Feedback erst nach Abschluss)
Im Cloud-Modus kein direkter Zugriff auf lokale Datenbanken oder API-Keys
Windows-Unterstützung des CLI ist experimentell (WSL empfohlen)
Keine Bildschirmsteuerungsfunktion

6. Entscheidungshilfe nach Anwendungsfall

Basierend auf dem bisherigen Vergleich hier unsere Empfehlungen je nach Situation.

„Ich möchte im Dialog mit der KI programmieren"

Claude Code. Tausche dich in Echtzeit aus: „Aendere das hier", „Versuche doch einen anderen Ansatz". Ideal für umfangreiche Refactorings und komplexe Architekturentscheidungen.

„Ich möchte Aufgaben delegieren und mich anderem widmen"

Codex (Cloud). Gib „Implementiere dieses Feature" oder „Behebe diesen Bug" ein und wende dich anderen Dingen zu. Durch parallele Verarbeitung lässt sich die Zeit optimal nutzen.

„Ich bin nicht vertraut mit dem Terminal"

Codex (Cloud). Über die ChatGPT-Oberfläche genügt es, „Behebe diesen Bug in diesem Repository" in natürlicher Sprache einzugeben. Kommandozeilen-Kenntnisse sind nicht erforderlich.

„Ich arbeite unter Windows"

Claude Code. Native Unterstützung oder via WSL unter Windows. Die Windows-Unterstützung von Codex CLI ist experimentell und setzt WSL voraus.

„Ich möchte die Kosten über die API minimieren"

Codex. Das Modell codex-mini kostet weniger als die Hälfte von Claude Sonnet (1,50 $ vs. 3,00 $/Million Tokens Eingabe). Allerdings unterscheiden sich die Leistungen — teste beide, um das richtige Verhältnis von Kosten und Qualität zu finden.

„Wenn das Budget es erlaubt: beide nutzen"

Claude Pro (20 $/Monat) + ChatGPT Plus (20 $/Monat) = 40 $/Monat für beide Tools. Nutze Claude Code für interaktive Sitzungen und Codex Cloud für die Massenverarbeitung kleiner, unabhängiger Aufgaben. Jedes KI-Modell hat seine Stärken — mit beiden erweitern sich deine Möglichkeiten erheblich.

7. Häufig gestellte Fragen

F. Was ist der Unterschied zu GitHub Copilot?

Copilot ist hauptsächlich ein Vervollständigungstool, das im Editor „die nächste Zeile" vorhersagt. Claude Code und Codex sind autonome Agenten: Du gibst ihnen den Auftrag „Implementiere dieses Feature", und sie erstellen Dateien, führen Tests aus und reichen eine PR ein. Die Arbeitstiefe ist völlig unterschiedlich. Copilot ist ein „Tipp-Assistent", Claude Code/Codex sind „Aufgaben-Delegierte".

F. Kann ich diese Tools mit vertraulichem Code verwenden?

Beide bieten Business-/Enterprise-Pläne, die sicherstellen, dass Gesprächsdaten nicht für das KI-Training verwendet werden. Claude Code läuft lokal — nur die API-Kommunikation (Fragen und Antworten an die KI) geht über die Cloud. Codex CLI funktioniert genauso. Codex Cloud führt Code in Cloud-Containern aus, die standardmäßig vom Internet isoliert sind. Bei besonders hohen Vertraulichkeitsanforderungen empfiehlt sich ein Enterprise-Plan.

F. Gibt es eine Möglichkeit, kostenlos zu testen?

Stand März 2026 sind weder Claude Code noch Codex in einem kostenlosen Plan verfügbar. Es ist mindestens ein Abonnement für 20 $/Monat oder der Kauf eines API-Keys erforderlich. Mit einem API-Key zahlt man nur den tatsächlichen Verbrauch, sodass ein Einstieg mit kleinem Budget möglich ist.

F. Welches Tool hat mehr Zukunft?

Meiner Einschätzung nach werden beide aktiv weiterentwickelt und der Funktionsunterschied schrumpft rapide. Claude Code profitiert vom gesamten Claude-Ökosystem. Codex setzt auf Open-Source-Strategie und die riesige Nutzerbasis von ChatGPT. Dass eines der beiden vom Markt verschwindet, ist unwahrscheinlich — der Wettbewerb treibt die Innovation auf beiden Seiten voran. (Dies ist die persönliche Meinung des Autors, keine offizielle Stellungnahme.)

Fazit

Claude Code und Codex sind beide leistungsstarke KI-Coding-Tools. Ihre Grundfunktionen sind ähnlich, aber die Nutzungsphilosophie unterscheidet sich.

Claude Code = Entwicklung im Echtzeit-Dialog mit der KI. Ideal für große Änderungen, komplexe Entscheidungen und die Automatisierung visueller Prüfungen
Codex = Aufgaben auch delegieren und laufen lassen. Ideal für parallele Bearbeitung kleiner Aufgaben und die Nutzung über ChatGPT

Wenn du unsicher bist, starte mit dem 20-$/Monat-Plan bei einem der beiden. Ein KI-Coding-Tool muss man ausprobieren, um zu wissen, ob es zu einem passt. Teste beide und wähle dasjenige als Hauptwerkzeug, das am besten zu deinem Entwicklungsstil passt.

Referenzlinks

Die Informationen in diesem Artikel entsprechen dem Stand von März 2026. Preise und Benchmark-Scores können sich ändern. Aktuelle Informationen finden Sie auf den jeweiligen offiziellen Websites.

Claude Code vs Codex: Welches Tool passt zu dir? Preise, Leistung und Einsatzgebiete im Vergleich [2026]