Claude Opus 4.7 erklaert: hochaufloesende Bilder, xhigh-Effort, Task Budgets

Q: F. Kann eine 4.6-App ohne Anpassung auf 4.7 wechseln?

Viele Apps laufen nur durch Wechsel der Modell-ID, doch Anpassungen sind noetig, wenn (1) Extended Thinking via thinking: {type: &quot;enabled&quot;} verwendet wird, (2) temperature/top_p/top_k nicht auf Default gesetzt sind, (3) Assistant-Prefill genutzt wird, (4) der Denkinhalt im UI angezeigt wird. Andernfalls drohen 400-Fehler oder Verhaltensaenderungen. Details im Migrationsleitfaden.

Q: F. Wie unterscheidet man xhigh und max?

Anthropic empfiehlt xhigh fuer Coding und Agenten; max fuer das schwierigste Reasoning. Implementierung, Refactoring, Testaufbau, Multi-Step-Planung von Agenten: xhigh trifft den Sweet Spot. Sehr schwierige Mathematik, Forschungsanalysen, Strategie: max. Tipp: erst xhigh probieren, bei Bedarf auf max gehen.

Q: F. Warum ist Task Budgets kein Hard Cap?

Agenten-Schleifen verbrauchen pro Tool-Aufruf schwer vorhersagbar Tokens. Ein Hard Cap wuerde haeufig kurz vor dem Ziel abbrechen. Anthropic hat das Feature daher als Advisory ausgelegt: das Modell plant mit dem Budget, kann es aber leicht ueberziehen. Wer hart begrenzen will, baut einen eigenen Zaehler ein.

Q: F. Ohne temperature kein deterministischer Output mehr?

In 4.7 fuehren Nicht-Default-Werte fuer temperature/top_p/top_k zu 400-Fehlern. Determinismus erreicht man praktisch ueber strikt vorgegebene Output-Formate im Prompt (z.B. „Antworte als JSON exakt nach folgendem Schema&quot;). Strukturierte Ausgabe (z.B. via response_format) erhoeht die Stabilitaet zusaetzlich.

Q: F. Warum wird der Denkinhalt nicht standardmaessig zurueckgegeben?

In 4.7 ist der Denkinhalt standardmaessig weggelassen. Wer ihn anzeigen moechte, setzt display: &quot;summarized&quot;. Hintergrund: „Denken ist Modellinternes — die finale Antwort ist das Hauptprodukt fuer Nutzer&quot;. Wer Debugging oder „das Modell denkt&quot;-Animationen weiter zeigen will, setzt summarized explizit.

Q: F. Was unterscheidet /ultrareview von /review in Claude Code?

/review entspricht einer normalen PR-Review (Codequalitaet, Bugs, Stil). /ultrareview arbeitet mit der Tiefe von xhigh und greift auch Designprobleme, Concurrency-Fallen, Sicherheitsrisiken sowie Wiederverwendbarkeit und Fehlerbehandlung auf. Verbraucht mehr Zeit und Tokens, aber sehr wertvoll vor wichtigen Merges. Alltag /review, Meilensteine /ultrareview.

Q: F. Wie viel besser ist 4.7 in Benchmarks?

Aus offiziellen Angaben von Anthropic und Partnern: CursorBench: 58% → 70% (Coding), CursorBench visuell: 54,5% → 98,5% (UI-Screenshots), Rakuten-SWE-Bench: 3x mehr Aufgaben geloest. Aus Drittberichten: ca. +13% in einem 93-Aufgaben-Coding-Bench, ca. −21% Fehler in OfficeQA Pro, +10–15% Erfolgsrate bei Factory Droids. Finance Agent und GDPval-AA werden als state-of-the-art bzw. top-tier bewertet.

Claude Opus 4.7 ist da — neue Funktionen, Benchmarks und Preise im Detail

Inhaltsverzeichnis

1. Release-Ueberblick — wann, was, Preis, wo verfuegbar
2. Die neuen Funktionen im Ueberblick
3. Hochaufloesende Bilder — erstmals in einem Claude-Modell
4. Effort-Level — neues xhigh dazu
5. Task Budgets (Beta)
6. Auswirkungen des neuen Tokenizers
7. Verhaltensaenderungen — was sich gegenueber 4.6 unterscheidet
8. Breaking Changes
9. Benchmarks
10. Vergleich mit Opus 4.6 / 4.5 / 4.1
11. Wann sollte man 4.7 einsetzen?
12. Neues in Claude Code — /ultrareview und Max-Plan
FAQ

Am 16. April 2026 hat Anthropic das Flaggschiff Claude Opus 4.7 offiziell veroeffentlicht. Modell-ID claude-opus-4-7, Preise unveraendert bei $5 / $25 pro MTok. Doch hinter den Kulissen ist vieles neu: hochaufloesende Bilder, das neue xhigh-Effort-Level, Task Budgets (Beta), ein neuer Tokenizer — Aenderungen, die das Erlebnis mit einem Frontier-Modell deutlich verschieben.

Gleichzeitig gibt es Breaking Changes: das Ende der Extended-Thinking-API, das Wegfallen von temperature/top_p/top_k und der Verzicht auf Prefill. Bestehender Code muss migriert werden.

Dieser Artikel zeigt aus Entwicklersicht, was 4.7 neu macht, was sich gegenueber 4.6 aendert und wann sich der Einsatz lohnt.

Claude Opus 4.7 Release — neue Funktionen im Ueberblick

1. Release-Ueberblick — wann, was, Preis, wo verfuegbar

Punkt	Inhalt
Release-Datum	16. April 2026
Modell-ID	`claude-opus-4-7`
Preis (Input)	$5 / 1 Mio. Tokens (gleich wie 4.6)
Preis (Output)	$25 / 1 Mio. Tokens (gleich wie 4.6)
Kontextfenster	1.000.000 Tokens (zum Standard-Tarif, kein Aufschlag fuer Long Context)
Maximale Ausgabe	128.000 Tokens
Plattformen	claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Bemerkenswert ist, dass das 1M-Kontextfenster zum Standard-Tarif bei gleichbleibendem Preis nutzbar ist. Frueher wurde fuer Long Context (etwa ueber 200K) extra berechnet — bei 4.7 entfaellt das.

Opus 4.7 ist fuer Bezahlnutzer in claude.ai (Web/Mobile) sofort verfuegbar; in der API reicht der Modell-ID-Wechsel. Auch AWS Bedrock, Google Vertex AI und Microsoft Foundry stellen das Modell zeitgleich bereit, sodass Multi-Cloud-Setups direkt umsteigen koennen.

2. Die neuen Funktionen im Ueberblick

Die wichtigsten Neuerungen und Aenderungen in Opus 4.7:

Neue Funktionen von Opus 4.7 — hochaufloesende Bilder, xhigh-Effort, Task Budgets, neuer Tokenizer

Hochaufloesende Bilder (Claude-Premiere) — bis 2576px / 3,75 Megapixel (zuvor 1568px / 1,15 MP, also rund das Dreifache)
Bessere Low-Level-Wahrnehmung — genauere Pointing-, Mess-, Zaehl- und Bounding-Box-Erkennung
Neues xhigh-Effort-Level — zwischen high und max, optimiert fuer Coding und Agenten
Task Budgets (Beta) — Vorab-Schaetzung der gesamten Token-Nutzung in Agenten-Loops
Neuer Tokenizer — verbraucht 1,0–1,35x mehr Tokens (je nach Inhalt bis +35%)
Adaptives Denken — standardmaessig aus (muss explizit aktiviert werden)
Verbesserte File-System-Memory — Scratchpad/Notizen ueber mehrere Sitzungen hinweg sind besser nutzbar
Knowledge Work (.docx, .pptx) — Track Changes, Folienlayouts und Diagramm-/Chart-Analyse genauer
Claude-Code-Integration — neues Slash-Command /ultrareview, im Max-Plan steigt der Default-Effort auf xhigh, Auto-Mode kommt zu Max-Nutzern
Echtzeit-Cybersecurity-Schutz — neues Ablehnverhalten bei sensiblen Themen
Verhalten — folgt Anweisungen treuer, direkter im Ton, weniger Tool-Aufrufe

Besonders wertvoll fuer den Praxiseinsatz sind hochaufloesende Bilder und das xhigh-Level: Dokumentenanalyse, Computer Use und Coding-Agenten profitieren stark. Im Folgenden alles Wichtige der Reihe nach.

3. Hochaufloesende Bilder — erstmals in einem Claude-Modell

Opus 4.7 ist das erste Claude-Modell, das hochaufloesende Bilder direkt verarbeitet.

Aufloesung im Vergleich

Punkt	Opus 4.6 und davor	Opus 4.7
Max. Aufloesung (lange Seite)	1568px	2576px
Max. Pixelzahl	1,15 Megapixel	3,75 Megapixel
Bild-Tokens pro Vollbild	ca. 1.600 Tokens	ca. 4.784 Tokens (rund 3x)
Koordinaten-Skala	Pixelkoordinaten der heruntergerechneten Aufloesung	1:1 mit echten Pixeln (keine Umrechnung noetig)

Was bringt das?

Dokumentenanalyse — feine Schrift, Tabellengitter und Skalen in A4-Scans werden klar lesbar
Computer Use — Full-HD-Screenshots oder hoehere lassen sich direkt verstehen
UI-Screenshot-Verstaendnis — 4K- oder hochauflaehne HiDPI-Aufnahmen ohne Downsampling auswerten
1:1 Koordinaten — wenn das Modell Klick-Koordinaten zurueckgeben soll, entfaellt die Skalenkonvertierung; einfacherer Code

Allerdings verbraucht ein Vollbild rund 4.784 Tokens. Agenten, die viele Screenshots austauschen, koennen schnell hohe Bild-Token-Kosten verursachen — bei niedrigeren Anforderungen lohnt es sich, vor dem Senden zu verkleinern.

4. Effort-Level — neues xhigh dazu

Beim Effort-Level, das die Tiefe des Denkens (Extended Thinking) steuert, kommt mit xhigh eine neue Stufe hinzu.

Effort-Level — low/medium/high/xhigh/max

Die fuenf Stufen im Einsatz

Stufe	Charakter	Geeignete Aufgaben
low	Minimales Denken, schnelle Antwort	kurze Fragen, Klassifikation, einfache Zusammenfassung, Chat-Antworten
medium	Mittleres Reasoning	normale Fragen, Informationsextraktion, leichte Generierung
high	Tiefes Reasoning	Designentscheidungen, komplexe Analysen, lange Texte
xhigh (neu)	Zwischen high und max, fuer Coding und Agenten optimiert	Code-Implementierung, Multi-Step-Agenten, Refactoring
max	Maximale Tiefe	schwierigste Reasoning-Probleme, Forschungsanalysen

Bis 4.6 gab es eine Luecke „high reicht nicht, max ist zu viel" — gerade bei Coding und Agenten oft spuerbar. xhigh schliesst genau diese Luecke und ist laut Anthropic fuer Coding- und Agenten-Aufgaben optimal.

Tipps zur Auswahl

In 4.7 ist die Effort-Kalibrierung strenger — besonders low und medium halten sich enger an den Auftrag. Wer in 4.6 mit medium auskam, sollte bei 4.7 ggf. auf high oder xhigh hochstufen.

5. Task Budgets (Beta)

Mit Opus 4.7 gibt es das neue Beta-Feature Task Budgets: eine Vorab-Schaetzung des gesamten Token-Verbrauchs einer Agenten-Schleife.

Spezifikation

Beta-Header: task-budgets-2026-03-13
Minimum: 20.000 Tokens
Umfang: gesamte Agenten-Schleife inkl. Denken, Tool-Aufrufen und Output
Verhalten: Advisory-Limit (Richtwert), kein Hard Cap — bei Ueberschreitung wird nicht erzwungen abgebrochen

Warum sinnvoll?

Das bisherige max_tokens begrenzt nur die Ausgabe einer einzelnen Antwort. In Agenten-Laeufen verschraenken sich Denk-Tokens, Tool-Round-Trips und Multi-Step-Outputs — der Gesamtverbrauch der Aufgabe ist schwer abzuschaetzen.

Mit Task Budgets plant das Modell anhand des Budgets, mit welcher Tiefe und Geschwindigkeit es arbeitet. So lassen sich Vorgaben wie „nicht zu sehr in die Tiefe, lieber zuegig fertig" oder „bitte ausfuehrlich nachdenken" auf der Kostenseite kommunizieren.

Da es nur Advisory ist: wer wirklich erzwingen will, dass das Budget eingehalten wird, muss in der Anwendung einen eigenen Zaehler fuehren.

6. Auswirkungen des neuen Tokenizers

Opus 4.7 verwendet einen neuen Tokenizer: derselbe Text verbraucht 1,0–1,35x mehr Tokens als zuvor — je nach Inhalt bis zu +35%.

Auswirkungen auf Kosten und Kontextbudget

Hoehere Rechnung trotz gleichem Prompt moeglich — bei stabilem Preis steigt die Summe mit der Token-Zahl
Effektive Informationsmenge im 1M-Kontext sinkt — 1M Tokens bleiben 1M Tokens, aber dasselbe Dokument frisst mehr
Schaetzungen und Alarme neu kalibrieren — wer Budgets oder Rate-Limits an alten Tokenzahlen aufgehaengt hat, muss neu rechnen

Praktisches Vorgehen

Vor dem Wechsel sollten folgende Punkte neu bewertet werden.

Monatliche Kostenschaetzung — bis +35% bei gleichem Traffic
Kontextfenster-Auslastung — Vorgaenge, die bisher knapp unter 1M lagen, kritisch pruefen
Rate-Limit / Tokens-pro-Minute — Sicherheitsabstand zur TPM-Grenze neu pruefen
Caching-Strategie — Trefferquote des Prompt-Caches kann sich verschieben

Die genaue Vorgehensweise fuer den Sprung von 4.6 zu 4.7 ist im spaeter verlinkten Migrationsleitfaden beschrieben.

7. Verhaltensaenderungen — was sich gegenueber 4.6 unterscheidet

Opus 4.7 hat nicht nur neue Funktionen — auch der Antwortstil hat sich gegenueber 4.6 verschoben.

Wichtige Verhaltensaenderungen

Treuere Befehlsbefolgung — vor allem bei niedrigem/mittlerem Effort, ohne unnoetige Zusaetze
Direkterer Ton — weniger Validierungsfloskeln („tolle Frage!"), weniger Hoeflichkeitsschnoerkel und Emojis
Antwortlaenge passt sich an — kurz bei einfachen, lang bei komplexen Aufgaben — keine Einheitslaenge
Weniger Tool-Aufrufe per Default — wo Reasoning genuegt, wird kein Tool benutzt
Weniger Sub-Agenten-Spawns — erst selbst denken, dann ggf. parallelisieren
Strengere Effort-Kalibrierung — low/medium halten sich enger an den Scope, weniger freie Auslegung

Auswirkungen auf vorhandene Prompts

Wer in 4.6 darauf vertraute, dass das Modell „freundlich nachgehakt" oder „viele Tools zur Sicherheit benutzt" hat, kann in 4.7 ein anderes Verhalten erleben.

Wer Erlaeuterungen will: „Begruende deine Antwort und nenne Alternativen" explizit fordern
Wer mehr Tool-Nutzung will: „Verwende WebSearch zur Faktenpruefung" konkret vorgeben
Wer laengere Antworten will: „mindestens 500 Zeichen" o.ae. ausdruecklich anfuehren

Insgesamt bewegt sich das Modell in Richtung „weniger ungefragt machen" — wer klare Anweisungen schreibt, bekommt vorhersehbares Verhalten.

Cybersicherheit, Schutzmechanismen und Sicherheit

Opus 4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Sicherheitsarbeit (Penetrationstests, Vulnerability Research, Red Teaming) kann je nach Kontext abgelehnt werden. Wer Sicherheitsanwendungen produktiv betreibt, sollte sich bei Anthropics Cyber Verification Program bewerben.

Auf der Sicherheitsseite nennt Anthropic offiziell folgende Verbesserungen:

Bessere Ehrlichkeit — sagt eher „weiss ich nicht", weniger duenne Behauptungen
Hoehere Resistenz gegen Prompt-Injection — staerker gegen Anweisungen Dritter
Mythos Preview ist derzeit am best ausgerichtet — Opus 4.7 bietet breitere Faehigkeiten, doch Mythos Preview liegt bei der Alignment-Praezision vorn

Andererseits werden Hinweise zu Schadenminderung bei kontrollierten Substanzen tendenziell weitlaeufiger (offiziell so kommuniziert). In Pharma-/Medizin-Chatbots empfiehlt sich Output-Filterung.

8. Breaking Changes

Opus 4.7 enthaelt mehrere Breaking Changes gegenueber 4.6. Bestehender 4.6-Code kann sonst 400-Fehler werfen.

Entfernte Parameter und Funktionen

Funktion	Verhalten bis 4.6	Verhalten in 4.7
Extended Thinking	`thinking: {type: "enabled", budget_tokens: N}` aktivierte Extended Thinking	Gleiche Payload erzeugt 400-Fehler; Wechsel zu adaptive thinking
Adaptive Thinking	Standardmaessig an	Standardmaessig aus; explizit per `thinking: {type: "adaptive"}`
Anzeige des Denkinhalts	standardmaessig zurueckgegeben	standardmaessig weggelassen; per `display: "summarized"` aktivieren
temperature	0,0–1,0 einstellbar	Andere Werte als Standard erzeugen 400-Fehler
top_p / top_k	steuerbar	Andere Werte als Standard erzeugen 400-Fehler
Assistant-Prefill	assistant-Eintrag am Ende anhaengen, Modell setzt fort	400-Fehler (uebernommen aus 4.6)

Was muss angepasst werden?

Code mit Extended Thinking: thinking.type auf "adaptive" setzen, ggf. display ergaenzen
Code mit temperature/top_p/top_k: Parameter entfernen; Determinismus auf Prompt-Ebene loesen
Code mit Assistant-Prefill: Prefill in die Nutzerfrage integrieren oder per Output-Format-Hinweis ersetzen
UI mit Denkanzeigen: ohne display: "summarized" wird kein Denkinhalt zurueckgegeben

Ausfuehrliche Anleitungen im Migrationsleitfaden.

9. Benchmarks

Detaillierte Werte sind zur Veroeffentlichung nur eingeschraenkt offengelegt; Anthropic spricht aber von klaren Verbesserungen bei Coding, Agenten und Vision.

Bereiche mit gemeldeten Verbesserungen

Offizielle Benchmark-Werte

Die wichtigsten von Anthropic mitgeteilten Werte:

Benchmark	Opus 4.6	Opus 4.7	Bereich
CursorBench	58%	70%	Coding
CursorBench (visuell)	54,5%	98,5%	UI-Screenshot-Verstaendnis
Rakuten-SWE-Bench	Ausgangswert	3x Aufgaben geloest	Produktive Code-Aenderungen
CyberGym	73,8	— (nicht veroeffentlicht)	Sicherheit
Finance Agent	—	state-of-the-art	Finanz-Agenten
GDPval-AA	—	top-tier	Wirtschaftlich wertvolle Wissensarbeit

Berichte aus dritter Hand und von Nutzern

93-Aufgaben-Coding-Benchmark: rund +13% ggue. Opus 4.6
OfficeQA Pro (Dokument-Reasoning): ca. −21% Fehler
Factory Droids (echte Produktionsaufgaben): +10–15% Erfolgsrate

Praxis-Bewertung

Die obigen Werte stammen von Anthropic und Partnerunternehmen. Am verlaesslichsten ist jedoch die Messung mit der eigenen Workload. Da der neue Tokenizer Token-Zahlen verschiebt, sind Vorab-Benchmarks fuer Kosten und Latenz Pflicht.

Tipps fuer die Bewertung:

Identische Eingaben an 4.6 und 4.7 schicken und Qualitaet, Laufzeit und Token-Verbrauch vergleichen
Coding objektiv bewerten („lief auf Anhieb?", „Tests gruen?")
Agenten anhand „Aufgaben-Erfolg" und „Tool-Anrufzahlen" beurteilen (in 4.7 weniger Tools — wenn Erfolg trotzdem steigt, klare Verbesserung)
Vision-Tasks an realen Use-Cases mit hochaufloesenden Bildern (UI-Screenshots, Dokument-Scans) vergleichen

Verhaeltnis zur Mythos-Preview

Anthropic schreibt: Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate. Opus 4.7 ist breiter aufgestellt; bei der Cyber-Faehigkeit liegt Mythos Preview gezielt zurueck (sicherer Stufen-Rollout). Das oeffentliche Flaggschiff bleibt Opus 4.7.

10. Vergleich mit Opus 4.6 / 4.5 / 4.1

Punkt	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
Preis (Input)	$15	$5	$5	$5
Preis (Output)	$75	$25	$25	$25
Max. Kontext	200K	200K	1M	1M
Max. Output	32K	64K	128K	128K
Max. Bildaufloesung	1568px	1568px	1568px	2576px
Effort-Level	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
Extended Thinking	vorhanden	vorhanden	adaptive	adaptive (Default OFF)
Task Budgets	nein	nein	nein	ja (Beta)
temperature etc.	nutzbar	nutzbar	nutzbar	entfernt
Prefill	nutzbar	nutzbar	entfernt	entfernt
Tokenizer	alt	alt	alt	neu (1,0–1,35x)

Werte gemaess offizieller Angaben vom 16. April 2026. Der Hauptpunkt von 4.6 → 4.7: mehr Funktionen, gleicher Preis.

11. Wann sollte man 4.7 einsetzen?

Opus 4.7 ist das Flaggschiff — aber nicht fuer alles die beste Wahl.

Wo Opus 4.7 ideal ist

Komplexes Coding — grosse Refactorings, Designentscheidungen, Multi-File-Aenderungen
Lange Agenten-Schleifen — Multi-Step-Automation, kombiniert mit Task Budgets
Vision mit hochaufloesenden Bildern — Computer Use, UI-Screenshot-Analyse, Dokument-OCR
Long-Context bis 1M Tokens — grosse Codebasen, lange Dokumente
Schwierigstes Reasoning — Mathematik, Forschungsanalysen, Strategieentwicklung

Wann Sonnet sinnvoll ist

Standard-QA, Klassifikation, Informationsextraktion
grosse Batch-Verarbeitung mit „solide klugen" Antworten zu geringeren Kosten
Echtzeit-Use-Cases mit besonders niedriger Latenz

Wann Haiku sinnvoll ist

einfaches Klassifizieren, Uebersetzen, Filtern in grossen Mengen zu minimalen Kosten
IoT/Edge oder andere Faelle, in denen die Antwortgeschwindigkeit zaehlt

Praktische Faustregel: nach aussen sichtbares (Code, komplexes Reasoning, Agent-Kern) mit Opus 4.7, massenhafte Hintergrundverarbeitung (Log-Klassifikation, Datenextraktion, Vorfilterung) mit Sonnet oder Haiku.

12. Neues in Claude Code — /ultrareview

Auch Claude Code (Anthropics offizielles CLI) wurde zur Opus-4.7-Veroeffentlichung aktualisiert; neu ist das Slash-Command /ultrareview.

Das kann /ultrareview

Code-Review mit der Tiefe von xhigh
Geht ueber normale Code-Reviews hinaus — Wiederverwendbarkeit, Fehlerbehandlung, Concurrency-Fallen, Sicherheitsrisiken inklusive
Identifiziert nicht nur Implementierungsfehler, sondern auch „suboptimale Designentscheidungen"

Wenn das bestehende /review einer „PR-Review" entspricht, dann ist /ultrareview eher eine Design-Review durch eine erfahrene Senior-Entwicklerin. Geeignet vor und nach grossen Features oder als Final Check vor einem Release.

Da /ultrareview mit xhigh-Tiefe arbeitet, kostet es mehr Zeit und Tokens als ein normaler Review. Faustregel: alltaeglich /review, an Meilensteinen /ultrareview.

Hoeherer Default-Effort im Max-Plan

Im Claude Code Max-Plan wird der Default-Effort fuer Opus 4.7 auf xhigh angehoben. Aufgaben, die zuvor mit high liefen, profitieren jetzt automatisch von tieferem Reasoning. Bessere Ergebnisse innerhalb des Token-Limits — Verbrauch steigt, Monitoring empfohlen.

Auto-Mode auch fuer Max-Nutzer

Der Auto-Mode, der zuvor nur in einigen Plaenen verfuegbar war, ist jetzt auch fuer Claude Code Max-Nutzer freigeschaltet. Er waehlt automatisch zwischen Opus, Sonnet und Haiku — fuer Kosten- und Geschwindigkeitsoptimierung.

FAQ

F. Kann eine 4.6-App ohne Anpassung auf 4.7 wechseln?

Viele Apps laufen nur durch Wechsel der Modell-ID, doch Anpassungen sind noetig, wenn (1) Extended Thinking via thinking: {type: "enabled"} verwendet wird, (2) temperature/top_p/top_k nicht auf Default gesetzt sind, (3) Assistant-Prefill genutzt wird, (4) der Denkinhalt im UI angezeigt wird. Andernfalls drohen 400-Fehler oder Verhaltensaenderungen. Details im Migrationsleitfaden.

F. Steigen die Kosten mit dem neuen Tokenizer wirklich?

Ja, derselbe Text verbraucht 1,0–1,35x mehr Tokens — im schlimmsten Fall etwa +35%. Andererseits gibt es Verhaltensaenderungen wie „weniger Tool-Aufrufe" und „kuerzere Antworten", sodass die Gesamtwirkung pro App variiert. Bei viel Traffic empfehlen wir einen Parallelbetrieb von 4.6 und 4.7 zur monatlichen Vergleichsmessung vor dem Umstieg.

F. Wie unterscheidet man xhigh und max?

Anthropic empfiehlt xhigh fuer Coding und Agenten; max fuer das schwierigste Reasoning. Implementierung, Refactoring, Testaufbau, Multi-Step-Planung von Agenten: xhigh trifft den Sweet Spot. Sehr schwierige Mathematik, Forschungsanalysen, Strategie: max. Tipp: erst xhigh probieren, bei Bedarf auf max gehen.

F. Warum ist Task Budgets kein Hard Cap?

Agenten-Schleifen verbrauchen pro Tool-Aufruf schwer vorhersagbar Tokens. Ein Hard Cap wuerde haeufig kurz vor dem Ziel abbrechen. Anthropic hat das Feature daher als Advisory ausgelegt: das Modell plant mit dem Budget, kann es aber leicht ueberziehen. Wer hart begrenzen will, baut einen eigenen Zaehler ein.

F. Wird hochaufloesendes Bild automatisch genutzt?

Ja: Mit der 4.7-Modell-ID werden gesendete Bilder bis 2576px in voller Aufloesung verarbeitet, ohne extra Opt-in. Allerdings sind das pro Bild rund 4.784 Tokens. Bei vielen Bildern kann das schnell teuer werden — wenn nicht noetig, vorab herunterskalieren.

F. Ohne temperature kein deterministischer Output mehr?

In 4.7 fuehren Nicht-Default-Werte fuer temperature/top_p/top_k zu 400-Fehlern. Determinismus erreicht man praktisch ueber strikt vorgegebene Output-Formate im Prompt (z.B. „Antworte als JSON exakt nach folgendem Schema"). Strukturierte Ausgabe (z.B. via response_format) erhoeht die Stabilitaet zusaetzlich.

F. Warum wird der Denkinhalt nicht standardmaessig zurueckgegeben?

In 4.7 ist der Denkinhalt standardmaessig weggelassen. Wer ihn anzeigen moechte, setzt display: "summarized". Hintergrund: „Denken ist Modellinternes — die finale Antwort ist das Hauptprodukt fuer Nutzer". Wer Debugging oder „das Modell denkt"-Animationen weiter zeigen will, setzt summarized explizit.

F. Was unterscheidet /ultrareview von /review in Claude Code?

/review entspricht einer normalen PR-Review (Codequalitaet, Bugs, Stil). /ultrareview arbeitet mit der Tiefe von xhigh und greift auch Designprobleme, Concurrency-Fallen, Sicherheitsrisiken sowie Wiederverwendbarkeit und Fehlerbehandlung auf. Verbraucht mehr Zeit und Tokens, aber sehr wertvoll vor wichtigen Merges. Alltag /review, Meilensteine /ultrareview.

F. Wie viel besser ist 4.7 in Benchmarks?

Aus offiziellen Angaben von Anthropic und Partnern: CursorBench: 58% → 70% (Coding), CursorBench visuell: 54,5% → 98,5% (UI-Screenshots), Rakuten-SWE-Bench: 3x mehr Aufgaben geloest. Aus Drittberichten: ca. +13% in einem 93-Aufgaben-Coding-Bench, ca. −21% Fehler in OfficeQA Pro, +10–15% Erfolgsrate bei Factory Droids. Finance Agent und GDPval-AA werden als state-of-the-art bzw. top-tier bewertet.

F. Was ist Mythos Preview? Staerker als Opus 4.7?

Mythos Preview ist ein internes, nicht oeffentliches Modell. Anthropic schreibt: „Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate." Doch seine Cyber-Faehigkeiten sind bewusst gedrosselt; im allgemeinen Einsatz bleibt Opus 4.7 das staerkste oeffentliche Modell. Mythos uebertrifft 4.7 stellenweise, wird aber nur stufenweise und limitiert ausgerollt — sicher zuerst, dann mehr.

F. Sicherheitsarbeit (Pentests usw.) wird abgelehnt — was tun?

4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Penetrationstests, Vulnerability Research und Red Teaming koennen je nach Kontext abgelehnt werden. Wer das produktiv braucht, bewirbt sich beim Anthropic Cyber Verification Program. Nach Freigabe gelten lockerere Einstellungen.

F. Wo finde ich die Benchmark-Werte von 4.7?

Zur Veroeffentlichung sind die Detailwerte nur teilweise offengelegt; Anthropic spricht von klaren Verbesserungen bei Coding, Agenten und Vision. Fuer Standard-Benchmarks wie SWE-bench lohnt es sich, auf Anthropics Blog, Modellkarte und Drittauswertungen zu warten. Da am verlaesslichsten die Messung mit der eigenen Workload ist, empfiehlt sich vor dem Produktiveinsatz ein A/B-Vergleich.

Dieser Artikel basiert auf den offiziellen Angaben vom 16. April 2026. Spezifikationen, Preise und Verfuegbarkeit koennen sich aendern — vor dem produktiven Einsatz die Anthropic-Dokumentation pruefen. Konkrete Migrationsschritte stehen im Migrationsleitfaden.

Claude Opus 4.7 ist da — neue Funktionen, Benchmarks und Preise im Detail