Eines der Ersten, was Nutzer bei Claude Code auffällt, ist, wie schnell die Tokens aufgebraucht sind. Haben Sie sich schon einmal gefragt: „Ich habe nur eine Datei bearbeitet – warum bin ich schon am Limit?"

Dieser Artikel erklärt, warum Claude Code so viele Tokens verbraucht, stellt 10 praktische Spar-Techniken vor und erläutert, was bei Limit-Überschreitung passiert und wie Zusatzkosten funktionieren.

1. Warum Claude Code so viele Tokens verbraucht

Im Gegensatz zum normalen Chat ist Claude Code ein agentisches System. Eine einzige Anweisung löst intern mehrere API-Aufrufe aus, um die Aufgabe abzuschließen.

Wie der Token-Verbrauch bei Claude Code funktioniert: Eine Anweisung löst mehrere API-Aufrufe aus

Konkrete Gründe für den hohen Token-Verbrauch

  • System-Prompt + Gesprächsverlauf werden bei jeder Nachricht mitgesendet: Jede Nachricht sendet den gesamten bisherigen Verlauf erneut – je länger das Gespräch, desto schneller steigt der Verbrauch
  • Dateiinhalte werden in den Kontext geladen: Beim Bearbeiten von Code wird der Inhalt der Zieldatei in den Kontext aufgenommen. Größere Dateien verbrauchen mehr Tokens
  • Tool-Aufrufe verketten sich: Eine einzige Anweisung kann intern Dateisuche, Lesen, Bearbeiten und Prüfen auslösen (laut Anthropic kann ein einzelner Befehl 8–12 API-Aufrufe erzeugen)
  • Denk-Tokens zählen als Output: Auch der interne „Denkprozess" von Claude Code verbraucht Tokens

Mehr über die Unterschiede zwischen Claudes Modi erfahren Sie in unserem Artikel zu den Unterschieden zwischen Claude Chat, Cowork und Code.

2. Nutzungslimits und Preise nach Tarif

Anthropic veröffentlicht keine konkreten Token-Limits, aber hier ist eine Übersicht der Tarife und deren Positionierung.

Claude Code Tarifvergleich: Pro, Max 5x, Max 20x und API – Funktionen und Preise
TarifMonatspreisNutzungslimitWichtige Merkmale
Pro$20Basis-Kontingent (5-Stunden-Rollfenster)Geteiltes Kontingent mit normalem Claude-Chat
Max 5x$1005x ProFür regelmäßige Claude Code-Nutzer
Max 20x$20020x ProFür Vielnutzer und professionellen Einsatz
API (Pay-as-you-go)NutzungsbasiertRatenlimits geltenSonnet: $3/$15, Opus: $15/$75 (pro MTok)

Hinweis: Pro- und Max-Tarife teilen das gleiche Token-Kontingent

Claude Code und der normale Claude-Chat teilen sich dasselbe Token-Kontingent. Intensiver Claude Code-Einsatz schränkt daher auch Ihren regulären Chat-Zugang ein.

Für einen detaillierten Preisvergleich lesen Sie unseren Artikel zum Claude vs. ChatGPT Preisvergleich.

3. 10 Techniken zum Token-Sparen

Mit den folgenden Techniken können Sie Ihren Token-Verbrauch deutlich reduzieren.

Übersicht der 10 Token-Spar-Techniken

Tipp 1: Kontext regelmäßig mit /clear zurücksetzen

Wenn Sie zu einer anderen Aufgabe wechseln, führen Sie /clear aus, um das Gespräch zurückzusetzen. Verbleibender Gesprächsverlauf bedeutet, dass unnötige Tokens bei jeder Nachricht erneut gesendet werden.

# Nach Abschluss der Arbeit an der Authentifizierung
/clear

# Nächste Aufgabe starten
"Zahlungsfunktion hinzufügen"

Tipp 2: Gespräche mit /compact komprimieren

Sie können ein langes Gespräch mitten in der Sitzung komprimieren. Fügen Sie benutzerdefinierte Anweisungen hinzu, um nur das Wesentliche zu behalten.

# Einfache Komprimierung
/compact

# Komprimierung mit Anweisungen
/compact Nur die Code-Änderungen und API-Spezifikationen behalten

Tipp 3: Kontext mit --include eingrenzen

Verwenden Sie die Option --include beim Starten von Claude Code, um zu begrenzen, welche Dateien geladen werden. Laut offizieller Anthropic-Dokumentation kann dies allein die Input-Tokens um 50–80 % reduzieren.

# Bestimmte Verzeichnisse statt des ganzen Projekts
claude --include "src/components/**/*.tsx"

# Mehrere Muster angeben
claude --include "src/api/**" --include "src/types/**"

Tipp 4: Modell je nach Aufgabe wechseln

Sie brauchen nicht für jede Aufgabe Opus (das Spitzenmodell). Sonnet kostet etwa ein Fünftel – sowohl für Input als auch Output – und bewältigt alltägliche Coding-Aufgaben problemlos.

# Sonnet für alltägliches Coding
/model sonnet

# Opus für Architekturentscheidungen oder komplexes Refactoring
/model opus

Tipp 5: Kürzere Ausgaben anfordern

Längere KI-Antworten bedeuten mehr Output-Tokens. Anweisungen wie „Nur Code" oder „Antworte in einem Satz" reduzieren unnötige Ausgaben.

❌ "Repariere diese Funktion"
→ KI generiert lange Erklärung + Code + Hinweise (viele Output-Tokens)

✅ "Repariere diese Funktion. Keine Erklärung, nur den Code"
→ Nur Code (deutlich weniger Output-Tokens)

Tipp 6: Denk-Tokens begrenzen

Claude Code verbraucht Tokens für seinen internen „Denkprozess". Bei einfachen Aufgaben kann die Begrenzung des Denkens die Kosten senken.

# Niedrigerer Aufwand für einfache Aufgaben
/effort low

Tipp 7: CLAUDE.md kurz halten

CLAUDE.md (die Projektkonfigurationsdatei) wird bei jeder einzelnen Nachricht geladen. Unnötige Informationen darin erhöhen den Token-Verbrauch bei jedem Durchlauf.

CLAUDE.md Best Practices

Beschränken Sie sich auf Projektregeln, Befehle und wichtige Konventionen. Lagern Sie ausführliche Erklärungen und Dokumentationen in separate Dateien aus. Streben Sie unter 200 Zeilen an.

Tipp 8: Sub-Agenten einsetzen

Delegieren Sie Aufgaben mit umfangreicher Ausgabe – wie das Ausführen von Tests oder Analysieren von Logs – an Sub-Agenten. Deren detaillierte Ausgabe bleibt außerhalb des Hauptkontexts und spart Tokens.

Tipp 9: Spezifikationen vorab bereitstellen, um Nacharbeit zu vermeiden

Ein Hin und Her wie „Baue es, dann repariere es, dann ändere es" verschwendet Tokens. Klare Spezifikationen von Anfang an verhindern Nacharbeit und halten den Token-Verbrauch linear.

❌ Gesprächsmuster (exponentieller Token-Anstieg):
"Baue eine Login-Funktion" → "Füge Validierung hinzu"
→ "Doch lieber E-Mail-Auth" → "Ändere auch die UI"

✅ Spezifikation-zuerst-Muster (linearer Token-Verbrauch):
"Baue eine Login-Funktion mit diesen Spezifikationen:
- E-Mail + Passwort-Authentifizierung
- E-Mail-Validierung (Formatprüfung + Duplikatprüfung)
- Passwort-Anforderungen: 8+ Zeichen, alphanumerisch
- Login-Formular-UI: zentriert, Card-Layout"

Weitere Tipps zum Schreiben effektiver Prompts finden Sie in unserem Artikel zu Prompt-Tipps für die KI-App-Entwicklung.

Tipp 10: Auf Dateiformate achten

PDFs und Excel-Dateien verbrauchen durch Textextraktion und Bildkonvertierung große Mengen an Tokens. Konvertieren Sie sie nach Möglichkeit in Klartext oder CSV, bevor Sie sie an Claude Code übergeben.

4. Was passiert bei Limit-Überschreitung?

Was bei Erreichen des Token-Limits geschieht, hängt von Ihrem Tarif ab.

Abo-Tarife (Pro / Max)

  • Die Nutzung wird über ein 5-Stunden-Rollfenster verwaltet. Wenn Sie das Limit erreichen, können Sie Claude Code vorübergehend nicht nutzen
  • Sie werden nicht dauerhaft gesperrt – Ihr Kontingent erholt sich mit der Zeit
  • Es fallen keine Zusatzkosten an (es handelt sich um ein Flatrate-Abo)
  • Wenn Sie jedoch häufig ans Limit stoßen, sollten Sie ein Upgrade auf einen höheren Tarif in Betracht ziehen

API-Tarif (Pay-as-you-go)

  • Wenn Sie das Ratenlimit (Begrenzung pro Minute oder pro Tag) erreichen, wird ein 429-Fehler zurückgegeben
  • Es gibt keine feste Nutzungsobergrenze, aber von Anthropic festgelegte Ratenlimits gelten weiterhin
  • Sie zahlen genau das, was Sie verbrauchen – daher ist Budgetkontrolle unerlässlich, um unkontrollierte Kosten zu vermeiden

Warnung zur API-Nutzung

Bei der Nutzung von Claude Code über die API hat Anthropic Daten veröffentlicht, die zeigen, dass die durchschnittlichen Kosten pro Entwickler bei etwa $6 pro Tag liegen (90 % der Nutzer bleiben unter $12/Tag). Bei großen Projekten können die Kosten jedoch deutlich steigen – richten Sie daher unbedingt ein Nutzungs-Monitoring ein.

5. So funktioniert die nutzungsbasierte API-Abrechnung

Wenn Sie den API-Tarif nutzen, gelten folgende Token-Preise (Stand: April 2026).

ModellInput-TokensOutput-TokensPrompt-Cache
Claude Sonnet 4.6$3 / MTok$15 / MTok10 % der Input-Kosten
Claude Opus 4.6$15 / MTok$75 / MTok10 % der Input-Kosten

* MTok = 1 Million Tokens

Was ist Prompt-Caching?

Anthropic bietet ein Prompt-Caching-Feature, das die Input-Token-Kosten auf 10 % reduziert, wenn derselbe Kontext (System-Prompt und jüngster Gesprächsverlauf) wiederverwendet wird.

Der Cache verfällt jedoch nach etwa 5 Minuten. Wenn Sie länger pausieren, wird der Cache ungültig und der vollständige Kontext wird bei der nächsten Nachricht erneut berechnet.

Caching optimal nutzen

Führen Sie /compact vor einer Pause aus. So wird der Kontext verkleinert, und wenn der Cache abläuft, fallen bei der nächsten Nachricht weniger Kosten an.

6. Zusammenfassung

Die wichtigsten Erkenntnisse

  • Claude Code löst mehrere API-Aufrufe pro Anweisung aus und verbraucht dadurch weit mehr Tokens als normaler Chat
  • Die drei Grundpfeiler des Token-Sparens sind /clear, /compact und --include
  • Für alltägliches Coding ist Sonnet (etwa 1/5 der Kosten von Opus) mehr als ausreichend
  • Abo-Tarife sind Flatrate ohne Zusatzkosten. Bei Limit-Überschreitung wird die Nutzung vorübergehend pausiert und erholt sich im Rollfenster
  • Die API-Nutzung ist nutzungsbasiert. Nutzen Sie Prompt-Caching und richten Sie ein Nutzungs-Monitoring ein

FAQ

Ist der Pro-Tarif für Claude Code realistisch?

Für leichte Aufgaben funktioniert es, aber bei ernsthafter Entwicklung stoßen Sie häufig ans Limit. Wenn Sie Claude Code regelmäßig nutzen, ist Max 5x ($100/Monat) die Mindestempfehlung. Das Kontingent des Pro-Tarifs wird mit dem normalen Chat geteilt, sodass Claude Code allein es schnell aufbrauchen kann.

Kann ich meinen Token-Verbrauch überprüfen?

Verwenden Sie den Befehl /cost in Claude Code, um den Token-Verbrauch und die geschätzten Kosten Ihrer aktuellen Sitzung einzusehen. API-Nutzer können die detaillierte Nutzung im Anthropic-Dashboard (console.anthropic.com) überprüfen.

Wenn ich das Limit erreiche, wird ein Tarif-Upgrade sofort wirksam?

Ja, Tarif-Upgrades werden sofort wirksam. Sie können jederzeit von Pro auf Max 5x oder von Max 5x auf Max 20x wechseln, und das neue Limit gilt sofort.

Wie funktioniert die Preisgestaltung für Teams und Unternehmen?

Der Team-Tarif bietet zwei Stufen: Standard ($25/Platz/Monat) und Premium ($100/Platz/Monat, inklusive Claude Code). Der Enterprise-Tarif erfordert einen Jahresvertrag mit Pro-Platz-Lizenzierung plus API-Nutzungsgebühren, ab mindestens 50 Plätzen. Für groß angelegte Einsätze empfehlen wir, Anthropic direkt für ein individuelles Angebot zu kontaktieren.