Inhaltsverzeichnis
- 1. Release-Ueberblick — wann, was, Preis, wo verfuegbar
- 2. Die neuen Funktionen im Ueberblick
- 3. Hochaufloesende Bilder — erstmals in einem Claude-Modell
- 4. Effort-Level — neues xhigh dazu
- 5. Task Budgets (Beta)
- 6. Auswirkungen des neuen Tokenizers
- 7. Verhaltensaenderungen — was sich gegenueber 4.6 unterscheidet
- 8. Breaking Changes
- 9. Benchmarks
- 10. Vergleich mit Opus 4.6 / 4.5 / 4.1
- 11. Wann sollte man 4.7 einsetzen?
- 12. Neues in Claude Code — /ultrareview und Max-Plan
- FAQ
Am 16. April 2026 hat Anthropic das Flaggschiff Claude Opus 4.7 offiziell veroeffentlicht. Modell-ID claude-opus-4-7, Preise unveraendert bei $5 / $25 pro MTok. Doch hinter den Kulissen ist vieles neu: hochaufloesende Bilder, das neue xhigh-Effort-Level, Task Budgets (Beta), ein neuer Tokenizer — Aenderungen, die das Erlebnis mit einem Frontier-Modell deutlich verschieben.
Gleichzeitig gibt es Breaking Changes: das Ende der Extended-Thinking-API, das Wegfallen von temperature/top_p/top_k und der Verzicht auf Prefill. Bestehender Code muss migriert werden.
Dieser Artikel zeigt aus Entwicklersicht, was 4.7 neu macht, was sich gegenueber 4.6 aendert und wann sich der Einsatz lohnt.
1. Release-Ueberblick — wann, was, Preis, wo verfuegbar
| Punkt | Inhalt |
|---|---|
| Release-Datum | 16. April 2026 |
| Modell-ID | claude-opus-4-7 |
| Preis (Input) | $5 / 1 Mio. Tokens (gleich wie 4.6) |
| Preis (Output) | $25 / 1 Mio. Tokens (gleich wie 4.6) |
| Kontextfenster | 1.000.000 Tokens (zum Standard-Tarif, kein Aufschlag fuer Long Context) |
| Maximale Ausgabe | 128.000 Tokens |
| Plattformen | claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry |
Bemerkenswert ist, dass das 1M-Kontextfenster zum Standard-Tarif bei gleichbleibendem Preis nutzbar ist. Frueher wurde fuer Long Context (etwa ueber 200K) extra berechnet — bei 4.7 entfaellt das.
Opus 4.7 ist fuer Bezahlnutzer in claude.ai (Web/Mobile) sofort verfuegbar; in der API reicht der Modell-ID-Wechsel. Auch AWS Bedrock, Google Vertex AI und Microsoft Foundry stellen das Modell zeitgleich bereit, sodass Multi-Cloud-Setups direkt umsteigen koennen.
2. Die neuen Funktionen im Ueberblick
Die wichtigsten Neuerungen und Aenderungen in Opus 4.7:
- Hochaufloesende Bilder (Claude-Premiere) — bis 2576px / 3,75 Megapixel (zuvor 1568px / 1,15 MP, also rund das Dreifache)
- Bessere Low-Level-Wahrnehmung — genauere Pointing-, Mess-, Zaehl- und Bounding-Box-Erkennung
- Neues xhigh-Effort-Level — zwischen high und max, optimiert fuer Coding und Agenten
- Task Budgets (Beta) — Vorab-Schaetzung der gesamten Token-Nutzung in Agenten-Loops
- Neuer Tokenizer — verbraucht 1,0–1,35x mehr Tokens (je nach Inhalt bis +35%)
- Adaptives Denken — standardmaessig aus (muss explizit aktiviert werden)
- Verbesserte File-System-Memory — Scratchpad/Notizen ueber mehrere Sitzungen hinweg sind besser nutzbar
- Knowledge Work (.docx, .pptx) — Track Changes, Folienlayouts und Diagramm-/Chart-Analyse genauer
- Claude-Code-Integration — neues Slash-Command
/ultrareview, im Max-Plan steigt der Default-Effort auf xhigh, Auto-Mode kommt zu Max-Nutzern - Echtzeit-Cybersecurity-Schutz — neues Ablehnverhalten bei sensiblen Themen
- Verhalten — folgt Anweisungen treuer, direkter im Ton, weniger Tool-Aufrufe
Besonders wertvoll fuer den Praxiseinsatz sind hochaufloesende Bilder und das xhigh-Level: Dokumentenanalyse, Computer Use und Coding-Agenten profitieren stark. Im Folgenden alles Wichtige der Reihe nach.
3. Hochaufloesende Bilder — erstmals in einem Claude-Modell
Opus 4.7 ist das erste Claude-Modell, das hochaufloesende Bilder direkt verarbeitet.
Aufloesung im Vergleich
| Punkt | Opus 4.6 und davor | Opus 4.7 |
|---|---|---|
| Max. Aufloesung (lange Seite) | 1568px | 2576px |
| Max. Pixelzahl | 1,15 Megapixel | 3,75 Megapixel |
| Bild-Tokens pro Vollbild | ca. 1.600 Tokens | ca. 4.784 Tokens (rund 3x) |
| Koordinaten-Skala | Pixelkoordinaten der heruntergerechneten Aufloesung | 1:1 mit echten Pixeln (keine Umrechnung noetig) |
Was bringt das?
- Dokumentenanalyse — feine Schrift, Tabellengitter und Skalen in A4-Scans werden klar lesbar
- Computer Use — Full-HD-Screenshots oder hoehere lassen sich direkt verstehen
- UI-Screenshot-Verstaendnis — 4K- oder hochauflaehne HiDPI-Aufnahmen ohne Downsampling auswerten
- 1:1 Koordinaten — wenn das Modell Klick-Koordinaten zurueckgeben soll, entfaellt die Skalenkonvertierung; einfacherer Code
Allerdings verbraucht ein Vollbild rund 4.784 Tokens. Agenten, die viele Screenshots austauschen, koennen schnell hohe Bild-Token-Kosten verursachen — bei niedrigeren Anforderungen lohnt es sich, vor dem Senden zu verkleinern.
4. Effort-Level — neues xhigh dazu
Beim Effort-Level, das die Tiefe des Denkens (Extended Thinking) steuert, kommt mit xhigh eine neue Stufe hinzu.
Die fuenf Stufen im Einsatz
| Stufe | Charakter | Geeignete Aufgaben |
|---|---|---|
| low | Minimales Denken, schnelle Antwort | kurze Fragen, Klassifikation, einfache Zusammenfassung, Chat-Antworten |
| medium | Mittleres Reasoning | normale Fragen, Informationsextraktion, leichte Generierung |
| high | Tiefes Reasoning | Designentscheidungen, komplexe Analysen, lange Texte |
| xhigh (neu) | Zwischen high und max, fuer Coding und Agenten optimiert | Code-Implementierung, Multi-Step-Agenten, Refactoring |
| max | Maximale Tiefe | schwierigste Reasoning-Probleme, Forschungsanalysen |
Bis 4.6 gab es eine Luecke „high reicht nicht, max ist zu viel" — gerade bei Coding und Agenten oft spuerbar. xhigh schliesst genau diese Luecke und ist laut Anthropic fuer Coding- und Agenten-Aufgaben optimal.
Tipps zur Auswahl
In 4.7 ist die Effort-Kalibrierung strenger — besonders low und medium halten sich enger an den Auftrag. Wer in 4.6 mit medium auskam, sollte bei 4.7 ggf. auf high oder xhigh hochstufen.
5. Task Budgets (Beta)
Mit Opus 4.7 gibt es das neue Beta-Feature Task Budgets: eine Vorab-Schaetzung des gesamten Token-Verbrauchs einer Agenten-Schleife.
Spezifikation
- Beta-Header:
task-budgets-2026-03-13 - Minimum: 20.000 Tokens
- Umfang: gesamte Agenten-Schleife inkl. Denken, Tool-Aufrufen und Output
- Verhalten: Advisory-Limit (Richtwert), kein Hard Cap — bei Ueberschreitung wird nicht erzwungen abgebrochen
Warum sinnvoll?
Das bisherige max_tokens begrenzt nur die Ausgabe einer einzelnen Antwort. In Agenten-Laeufen verschraenken sich Denk-Tokens, Tool-Round-Trips und Multi-Step-Outputs — der Gesamtverbrauch der Aufgabe ist schwer abzuschaetzen.
Mit Task Budgets plant das Modell anhand des Budgets, mit welcher Tiefe und Geschwindigkeit es arbeitet. So lassen sich Vorgaben wie „nicht zu sehr in die Tiefe, lieber zuegig fertig" oder „bitte ausfuehrlich nachdenken" auf der Kostenseite kommunizieren.
Da es nur Advisory ist: wer wirklich erzwingen will, dass das Budget eingehalten wird, muss in der Anwendung einen eigenen Zaehler fuehren.
6. Auswirkungen des neuen Tokenizers
Opus 4.7 verwendet einen neuen Tokenizer: derselbe Text verbraucht 1,0–1,35x mehr Tokens als zuvor — je nach Inhalt bis zu +35%.
Auswirkungen auf Kosten und Kontextbudget
- Hoehere Rechnung trotz gleichem Prompt moeglich — bei stabilem Preis steigt die Summe mit der Token-Zahl
- Effektive Informationsmenge im 1M-Kontext sinkt — 1M Tokens bleiben 1M Tokens, aber dasselbe Dokument frisst mehr
- Schaetzungen und Alarme neu kalibrieren — wer Budgets oder Rate-Limits an alten Tokenzahlen aufgehaengt hat, muss neu rechnen
Praktisches Vorgehen
Vor dem Wechsel sollten folgende Punkte neu bewertet werden.
- Monatliche Kostenschaetzung — bis +35% bei gleichem Traffic
- Kontextfenster-Auslastung — Vorgaenge, die bisher knapp unter 1M lagen, kritisch pruefen
- Rate-Limit / Tokens-pro-Minute — Sicherheitsabstand zur TPM-Grenze neu pruefen
- Caching-Strategie — Trefferquote des Prompt-Caches kann sich verschieben
Die genaue Vorgehensweise fuer den Sprung von 4.6 zu 4.7 ist im spaeter verlinkten Migrationsleitfaden beschrieben.
7. Verhaltensaenderungen — was sich gegenueber 4.6 unterscheidet
Opus 4.7 hat nicht nur neue Funktionen — auch der Antwortstil hat sich gegenueber 4.6 verschoben.
Wichtige Verhaltensaenderungen
- Treuere Befehlsbefolgung — vor allem bei niedrigem/mittlerem Effort, ohne unnoetige Zusaetze
- Direkterer Ton — weniger Validierungsfloskeln („tolle Frage!"), weniger Hoeflichkeitsschnoerkel und Emojis
- Antwortlaenge passt sich an — kurz bei einfachen, lang bei komplexen Aufgaben — keine Einheitslaenge
- Weniger Tool-Aufrufe per Default — wo Reasoning genuegt, wird kein Tool benutzt
- Weniger Sub-Agenten-Spawns — erst selbst denken, dann ggf. parallelisieren
- Strengere Effort-Kalibrierung — low/medium halten sich enger an den Scope, weniger freie Auslegung
Auswirkungen auf vorhandene Prompts
Wer in 4.6 darauf vertraute, dass das Modell „freundlich nachgehakt" oder „viele Tools zur Sicherheit benutzt" hat, kann in 4.7 ein anderes Verhalten erleben.
- Wer Erlaeuterungen will: „Begruende deine Antwort und nenne Alternativen" explizit fordern
- Wer mehr Tool-Nutzung will: „Verwende WebSearch zur Faktenpruefung" konkret vorgeben
- Wer laengere Antworten will: „mindestens 500 Zeichen" o.ae. ausdruecklich anfuehren
Insgesamt bewegt sich das Modell in Richtung „weniger ungefragt machen" — wer klare Anweisungen schreibt, bekommt vorhersehbares Verhalten.
Cybersicherheit, Schutzmechanismen und Sicherheit
Opus 4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Sicherheitsarbeit (Penetrationstests, Vulnerability Research, Red Teaming) kann je nach Kontext abgelehnt werden. Wer Sicherheitsanwendungen produktiv betreibt, sollte sich bei Anthropics Cyber Verification Program bewerben.
Auf der Sicherheitsseite nennt Anthropic offiziell folgende Verbesserungen:
- Bessere Ehrlichkeit — sagt eher „weiss ich nicht", weniger duenne Behauptungen
- Hoehere Resistenz gegen Prompt-Injection — staerker gegen Anweisungen Dritter
- Mythos Preview ist derzeit am best ausgerichtet — Opus 4.7 bietet breitere Faehigkeiten, doch Mythos Preview liegt bei der Alignment-Praezision vorn
Andererseits werden Hinweise zu Schadenminderung bei kontrollierten Substanzen tendenziell weitlaeufiger (offiziell so kommuniziert). In Pharma-/Medizin-Chatbots empfiehlt sich Output-Filterung.
8. Breaking Changes
Opus 4.7 enthaelt mehrere Breaking Changes gegenueber 4.6. Bestehender 4.6-Code kann sonst 400-Fehler werfen.
Entfernte Parameter und Funktionen
| Funktion | Verhalten bis 4.6 | Verhalten in 4.7 |
|---|---|---|
| Extended Thinking | thinking: {type: "enabled", budget_tokens: N} aktivierte Extended Thinking | Gleiche Payload erzeugt 400-Fehler; Wechsel zu adaptive thinking |
| Adaptive Thinking | Standardmaessig an | Standardmaessig aus; explizit per thinking: {type: "adaptive"} |
| Anzeige des Denkinhalts | standardmaessig zurueckgegeben | standardmaessig weggelassen; per display: "summarized" aktivieren |
| temperature | 0,0–1,0 einstellbar | Andere Werte als Standard erzeugen 400-Fehler |
| top_p / top_k | steuerbar | Andere Werte als Standard erzeugen 400-Fehler |
| Assistant-Prefill | assistant-Eintrag am Ende anhaengen, Modell setzt fort | 400-Fehler (uebernommen aus 4.6) |
Was muss angepasst werden?
- Code mit Extended Thinking:
thinking.typeauf"adaptive"setzen, ggf.displayergaenzen - Code mit temperature/top_p/top_k: Parameter entfernen; Determinismus auf Prompt-Ebene loesen
- Code mit Assistant-Prefill: Prefill in die Nutzerfrage integrieren oder per Output-Format-Hinweis ersetzen
- UI mit Denkanzeigen: ohne
display: "summarized"wird kein Denkinhalt zurueckgegeben
Ausfuehrliche Anleitungen im Migrationsleitfaden.
9. Benchmarks
Detaillierte Werte sind zur Veroeffentlichung nur eingeschraenkt offengelegt; Anthropic spricht aber von klaren Verbesserungen bei Coding, Agenten und Vision.
Bereiche mit gemeldeten Verbesserungen
Offizielle Benchmark-Werte
Die wichtigsten von Anthropic mitgeteilten Werte:
| Benchmark | Opus 4.6 | Opus 4.7 | Bereich |
|---|---|---|---|
| CursorBench | 58% | 70% | Coding |
| CursorBench (visuell) | 54,5% | 98,5% | UI-Screenshot-Verstaendnis |
| Rakuten-SWE-Bench | Ausgangswert | 3x Aufgaben geloest | Produktive Code-Aenderungen |
| CyberGym | 73,8 | — (nicht veroeffentlicht) | Sicherheit |
| Finance Agent | — | state-of-the-art | Finanz-Agenten |
| GDPval-AA | — | top-tier | Wirtschaftlich wertvolle Wissensarbeit |
Berichte aus dritter Hand und von Nutzern
- 93-Aufgaben-Coding-Benchmark: rund +13% ggue. Opus 4.6
- OfficeQA Pro (Dokument-Reasoning): ca. −21% Fehler
- Factory Droids (echte Produktionsaufgaben): +10–15% Erfolgsrate
Praxis-Bewertung
Die obigen Werte stammen von Anthropic und Partnerunternehmen. Am verlaesslichsten ist jedoch die Messung mit der eigenen Workload. Da der neue Tokenizer Token-Zahlen verschiebt, sind Vorab-Benchmarks fuer Kosten und Latenz Pflicht.
Tipps fuer die Bewertung:
- Identische Eingaben an 4.6 und 4.7 schicken und Qualitaet, Laufzeit und Token-Verbrauch vergleichen
- Coding objektiv bewerten („lief auf Anhieb?", „Tests gruen?")
- Agenten anhand „Aufgaben-Erfolg" und „Tool-Anrufzahlen" beurteilen (in 4.7 weniger Tools — wenn Erfolg trotzdem steigt, klare Verbesserung)
- Vision-Tasks an realen Use-Cases mit hochaufloesenden Bildern (UI-Screenshots, Dokument-Scans) vergleichen
Verhaeltnis zur Mythos-Preview
Anthropic schreibt: Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate. Opus 4.7 ist breiter aufgestellt; bei der Cyber-Faehigkeit liegt Mythos Preview gezielt zurueck (sicherer Stufen-Rollout). Das oeffentliche Flaggschiff bleibt Opus 4.7.
10. Vergleich mit Opus 4.6 / 4.5 / 4.1
| Punkt | Opus 4.1 | Opus 4.5 | Opus 4.6 | Opus 4.7 |
|---|---|---|---|---|
| Preis (Input) | $15 | $5 | $5 | $5 |
| Preis (Output) | $75 | $25 | $25 | $25 |
| Max. Kontext | 200K | 200K | 1M | 1M |
| Max. Output | 32K | 64K | 128K | 128K |
| Max. Bildaufloesung | 1568px | 1568px | 1568px | 2576px |
| Effort-Level | low/medium/high | low/medium/high/max | low/medium/high/max | low/medium/high/xhigh/max |
| Extended Thinking | vorhanden | vorhanden | adaptive | adaptive (Default OFF) |
| Task Budgets | nein | nein | nein | ja (Beta) |
| temperature etc. | nutzbar | nutzbar | nutzbar | entfernt |
| Prefill | nutzbar | nutzbar | entfernt | entfernt |
| Tokenizer | alt | alt | alt | neu (1,0–1,35x) |
Werte gemaess offizieller Angaben vom 16. April 2026. Der Hauptpunkt von 4.6 → 4.7: mehr Funktionen, gleicher Preis.
11. Wann sollte man 4.7 einsetzen?
Opus 4.7 ist das Flaggschiff — aber nicht fuer alles die beste Wahl.
Wo Opus 4.7 ideal ist
- Komplexes Coding — grosse Refactorings, Designentscheidungen, Multi-File-Aenderungen
- Lange Agenten-Schleifen — Multi-Step-Automation, kombiniert mit Task Budgets
- Vision mit hochaufloesenden Bildern — Computer Use, UI-Screenshot-Analyse, Dokument-OCR
- Long-Context bis 1M Tokens — grosse Codebasen, lange Dokumente
- Schwierigstes Reasoning — Mathematik, Forschungsanalysen, Strategieentwicklung
Wann Sonnet sinnvoll ist
- Standard-QA, Klassifikation, Informationsextraktion
- grosse Batch-Verarbeitung mit „solide klugen" Antworten zu geringeren Kosten
- Echtzeit-Use-Cases mit besonders niedriger Latenz
Wann Haiku sinnvoll ist
- einfaches Klassifizieren, Uebersetzen, Filtern in grossen Mengen zu minimalen Kosten
- IoT/Edge oder andere Faelle, in denen die Antwortgeschwindigkeit zaehlt
Praktische Faustregel: nach aussen sichtbares (Code, komplexes Reasoning, Agent-Kern) mit Opus 4.7, massenhafte Hintergrundverarbeitung (Log-Klassifikation, Datenextraktion, Vorfilterung) mit Sonnet oder Haiku.
12. Neues in Claude Code — /ultrareview
Auch Claude Code (Anthropics offizielles CLI) wurde zur Opus-4.7-Veroeffentlichung aktualisiert; neu ist das Slash-Command /ultrareview.
Das kann /ultrareview
- Code-Review mit der Tiefe von xhigh
- Geht ueber normale Code-Reviews hinaus — Wiederverwendbarkeit, Fehlerbehandlung, Concurrency-Fallen, Sicherheitsrisiken inklusive
- Identifiziert nicht nur Implementierungsfehler, sondern auch „suboptimale Designentscheidungen"
Wenn das bestehende /review einer „PR-Review" entspricht, dann ist /ultrareview eher eine Design-Review durch eine erfahrene Senior-Entwicklerin. Geeignet vor und nach grossen Features oder als Final Check vor einem Release.
Da /ultrareview mit xhigh-Tiefe arbeitet, kostet es mehr Zeit und Tokens als ein normaler Review. Faustregel: alltaeglich /review, an Meilensteinen /ultrareview.
Hoeherer Default-Effort im Max-Plan
Im Claude Code Max-Plan wird der Default-Effort fuer Opus 4.7 auf xhigh angehoben. Aufgaben, die zuvor mit high liefen, profitieren jetzt automatisch von tieferem Reasoning. Bessere Ergebnisse innerhalb des Token-Limits — Verbrauch steigt, Monitoring empfohlen.
Auto-Mode auch fuer Max-Nutzer
Der Auto-Mode, der zuvor nur in einigen Plaenen verfuegbar war, ist jetzt auch fuer Claude Code Max-Nutzer freigeschaltet. Er waehlt automatisch zwischen Opus, Sonnet und Haiku — fuer Kosten- und Geschwindigkeitsoptimierung.
FAQ
F. Kann eine 4.6-App ohne Anpassung auf 4.7 wechseln?
Viele Apps laufen nur durch Wechsel der Modell-ID, doch Anpassungen sind noetig, wenn (1) Extended Thinking via thinking: {type: "enabled"} verwendet wird, (2) temperature/top_p/top_k nicht auf Default gesetzt sind, (3) Assistant-Prefill genutzt wird, (4) der Denkinhalt im UI angezeigt wird. Andernfalls drohen 400-Fehler oder Verhaltensaenderungen. Details im Migrationsleitfaden.
F. Steigen die Kosten mit dem neuen Tokenizer wirklich?
Ja, derselbe Text verbraucht 1,0–1,35x mehr Tokens — im schlimmsten Fall etwa +35%. Andererseits gibt es Verhaltensaenderungen wie „weniger Tool-Aufrufe" und „kuerzere Antworten", sodass die Gesamtwirkung pro App variiert. Bei viel Traffic empfehlen wir einen Parallelbetrieb von 4.6 und 4.7 zur monatlichen Vergleichsmessung vor dem Umstieg.
F. Wie unterscheidet man xhigh und max?
Anthropic empfiehlt xhigh fuer Coding und Agenten; max fuer das schwierigste Reasoning. Implementierung, Refactoring, Testaufbau, Multi-Step-Planung von Agenten: xhigh trifft den Sweet Spot. Sehr schwierige Mathematik, Forschungsanalysen, Strategie: max. Tipp: erst xhigh probieren, bei Bedarf auf max gehen.
F. Warum ist Task Budgets kein Hard Cap?
Agenten-Schleifen verbrauchen pro Tool-Aufruf schwer vorhersagbar Tokens. Ein Hard Cap wuerde haeufig kurz vor dem Ziel abbrechen. Anthropic hat das Feature daher als Advisory ausgelegt: das Modell plant mit dem Budget, kann es aber leicht ueberziehen. Wer hart begrenzen will, baut einen eigenen Zaehler ein.
F. Wird hochaufloesendes Bild automatisch genutzt?
Ja: Mit der 4.7-Modell-ID werden gesendete Bilder bis 2576px in voller Aufloesung verarbeitet, ohne extra Opt-in. Allerdings sind das pro Bild rund 4.784 Tokens. Bei vielen Bildern kann das schnell teuer werden — wenn nicht noetig, vorab herunterskalieren.
F. Ohne temperature kein deterministischer Output mehr?
In 4.7 fuehren Nicht-Default-Werte fuer temperature/top_p/top_k zu 400-Fehlern. Determinismus erreicht man praktisch ueber strikt vorgegebene Output-Formate im Prompt (z.B. „Antworte als JSON exakt nach folgendem Schema"). Strukturierte Ausgabe (z.B. via response_format) erhoeht die Stabilitaet zusaetzlich.
F. Warum wird der Denkinhalt nicht standardmaessig zurueckgegeben?
In 4.7 ist der Denkinhalt standardmaessig weggelassen. Wer ihn anzeigen moechte, setzt display: "summarized". Hintergrund: „Denken ist Modellinternes — die finale Antwort ist das Hauptprodukt fuer Nutzer". Wer Debugging oder „das Modell denkt"-Animationen weiter zeigen will, setzt summarized explizit.
F. Was unterscheidet /ultrareview von /review in Claude Code?
/review entspricht einer normalen PR-Review (Codequalitaet, Bugs, Stil). /ultrareview arbeitet mit der Tiefe von xhigh und greift auch Designprobleme, Concurrency-Fallen, Sicherheitsrisiken sowie Wiederverwendbarkeit und Fehlerbehandlung auf. Verbraucht mehr Zeit und Tokens, aber sehr wertvoll vor wichtigen Merges. Alltag /review, Meilensteine /ultrareview.
F. Wie viel besser ist 4.7 in Benchmarks?
Aus offiziellen Angaben von Anthropic und Partnern: CursorBench: 58% → 70% (Coding), CursorBench visuell: 54,5% → 98,5% (UI-Screenshots), Rakuten-SWE-Bench: 3x mehr Aufgaben geloest. Aus Drittberichten: ca. +13% in einem 93-Aufgaben-Coding-Bench, ca. −21% Fehler in OfficeQA Pro, +10–15% Erfolgsrate bei Factory Droids. Finance Agent und GDPval-AA werden als state-of-the-art bzw. top-tier bewertet.
F. Was ist Mythos Preview? Staerker als Opus 4.7?
Mythos Preview ist ein internes, nicht oeffentliches Modell. Anthropic schreibt: „Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate." Doch seine Cyber-Faehigkeiten sind bewusst gedrosselt; im allgemeinen Einsatz bleibt Opus 4.7 das staerkste oeffentliche Modell. Mythos uebertrifft 4.7 stellenweise, wird aber nur stufenweise und limitiert ausgerollt — sicher zuerst, dann mehr.
F. Sicherheitsarbeit (Pentests usw.) wird abgelehnt — was tun?
4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Penetrationstests, Vulnerability Research und Red Teaming koennen je nach Kontext abgelehnt werden. Wer das produktiv braucht, bewirbt sich beim Anthropic Cyber Verification Program. Nach Freigabe gelten lockerere Einstellungen.
F. Wo finde ich die Benchmark-Werte von 4.7?
Zur Veroeffentlichung sind die Detailwerte nur teilweise offengelegt; Anthropic spricht von klaren Verbesserungen bei Coding, Agenten und Vision. Fuer Standard-Benchmarks wie SWE-bench lohnt es sich, auf Anthropics Blog, Modellkarte und Drittauswertungen zu warten. Da am verlaesslichsten die Messung mit der eigenen Workload ist, empfiehlt sich vor dem Produktiveinsatz ein A/B-Vergleich.
Dieser Artikel basiert auf den offiziellen Angaben vom 16. April 2026. Spezifikationen, Preise und Verfuegbarkeit koennen sich aendern — vor dem produktiven Einsatz die Anthropic-Dokumentation pruefen. Konkrete Migrationsschritte stehen im Migrationsleitfaden.