Am 16. April 2026 hat Anthropic das Flaggschiff Claude Opus 4.7 offiziell veroeffentlicht. Modell-ID claude-opus-4-7, Preise unveraendert bei $5 / $25 pro MTok. Doch hinter den Kulissen ist vieles neu: hochaufloesende Bilder, das neue xhigh-Effort-Level, Task Budgets (Beta), ein neuer Tokenizer — Aenderungen, die das Erlebnis mit einem Frontier-Modell deutlich verschieben.

Gleichzeitig gibt es Breaking Changes: das Ende der Extended-Thinking-API, das Wegfallen von temperature/top_p/top_k und der Verzicht auf Prefill. Bestehender Code muss migriert werden.

Dieser Artikel zeigt aus Entwicklersicht, was 4.7 neu macht, was sich gegenueber 4.6 aendert und wann sich der Einsatz lohnt.

Claude Opus 4.7 Release — neue Funktionen im Ueberblick

1. Release-Ueberblick — wann, was, Preis, wo verfuegbar

PunktInhalt
Release-Datum16. April 2026
Modell-IDclaude-opus-4-7
Preis (Input)$5 / 1 Mio. Tokens (gleich wie 4.6)
Preis (Output)$25 / 1 Mio. Tokens (gleich wie 4.6)
Kontextfenster1.000.000 Tokens (zum Standard-Tarif, kein Aufschlag fuer Long Context)
Maximale Ausgabe128.000 Tokens
Plattformenclaude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Bemerkenswert ist, dass das 1M-Kontextfenster zum Standard-Tarif bei gleichbleibendem Preis nutzbar ist. Frueher wurde fuer Long Context (etwa ueber 200K) extra berechnet — bei 4.7 entfaellt das.

Opus 4.7 ist fuer Bezahlnutzer in claude.ai (Web/Mobile) sofort verfuegbar; in der API reicht der Modell-ID-Wechsel. Auch AWS Bedrock, Google Vertex AI und Microsoft Foundry stellen das Modell zeitgleich bereit, sodass Multi-Cloud-Setups direkt umsteigen koennen.

2. Die neuen Funktionen im Ueberblick

Die wichtigsten Neuerungen und Aenderungen in Opus 4.7:

Neue Funktionen von Opus 4.7 — hochaufloesende Bilder, xhigh-Effort, Task Budgets, neuer Tokenizer
  • Hochaufloesende Bilder (Claude-Premiere) — bis 2576px / 3,75 Megapixel (zuvor 1568px / 1,15 MP, also rund das Dreifache)
  • Bessere Low-Level-Wahrnehmung — genauere Pointing-, Mess-, Zaehl- und Bounding-Box-Erkennung
  • Neues xhigh-Effort-Level — zwischen high und max, optimiert fuer Coding und Agenten
  • Task Budgets (Beta) — Vorab-Schaetzung der gesamten Token-Nutzung in Agenten-Loops
  • Neuer Tokenizer — verbraucht 1,0–1,35x mehr Tokens (je nach Inhalt bis +35%)
  • Adaptives Denken — standardmaessig aus (muss explizit aktiviert werden)
  • Verbesserte File-System-Memory — Scratchpad/Notizen ueber mehrere Sitzungen hinweg sind besser nutzbar
  • Knowledge Work (.docx, .pptx) — Track Changes, Folienlayouts und Diagramm-/Chart-Analyse genauer
  • Claude-Code-Integration — neues Slash-Command /ultrareview, im Max-Plan steigt der Default-Effort auf xhigh, Auto-Mode kommt zu Max-Nutzern
  • Echtzeit-Cybersecurity-Schutz — neues Ablehnverhalten bei sensiblen Themen
  • Verhalten — folgt Anweisungen treuer, direkter im Ton, weniger Tool-Aufrufe

Besonders wertvoll fuer den Praxiseinsatz sind hochaufloesende Bilder und das xhigh-Level: Dokumentenanalyse, Computer Use und Coding-Agenten profitieren stark. Im Folgenden alles Wichtige der Reihe nach.

3. Hochaufloesende Bilder — erstmals in einem Claude-Modell

Opus 4.7 ist das erste Claude-Modell, das hochaufloesende Bilder direkt verarbeitet.

Aufloesung im Vergleich

PunktOpus 4.6 und davorOpus 4.7
Max. Aufloesung (lange Seite)1568px2576px
Max. Pixelzahl1,15 Megapixel3,75 Megapixel
Bild-Tokens pro Vollbildca. 1.600 Tokensca. 4.784 Tokens (rund 3x)
Koordinaten-SkalaPixelkoordinaten der heruntergerechneten Aufloesung1:1 mit echten Pixeln (keine Umrechnung noetig)

Was bringt das?

  • Dokumentenanalyse — feine Schrift, Tabellengitter und Skalen in A4-Scans werden klar lesbar
  • Computer Use — Full-HD-Screenshots oder hoehere lassen sich direkt verstehen
  • UI-Screenshot-Verstaendnis — 4K- oder hochauflaehne HiDPI-Aufnahmen ohne Downsampling auswerten
  • 1:1 Koordinaten — wenn das Modell Klick-Koordinaten zurueckgeben soll, entfaellt die Skalenkonvertierung; einfacherer Code

Allerdings verbraucht ein Vollbild rund 4.784 Tokens. Agenten, die viele Screenshots austauschen, koennen schnell hohe Bild-Token-Kosten verursachen — bei niedrigeren Anforderungen lohnt es sich, vor dem Senden zu verkleinern.

4. Effort-Level — neues xhigh dazu

Beim Effort-Level, das die Tiefe des Denkens (Extended Thinking) steuert, kommt mit xhigh eine neue Stufe hinzu.

Effort-Level — low/medium/high/xhigh/max

Die fuenf Stufen im Einsatz

StufeCharakterGeeignete Aufgaben
lowMinimales Denken, schnelle Antwortkurze Fragen, Klassifikation, einfache Zusammenfassung, Chat-Antworten
mediumMittleres Reasoningnormale Fragen, Informationsextraktion, leichte Generierung
highTiefes ReasoningDesignentscheidungen, komplexe Analysen, lange Texte
xhigh (neu)Zwischen high und max, fuer Coding und Agenten optimiertCode-Implementierung, Multi-Step-Agenten, Refactoring
maxMaximale Tiefeschwierigste Reasoning-Probleme, Forschungsanalysen

Bis 4.6 gab es eine Luecke „high reicht nicht, max ist zu viel" — gerade bei Coding und Agenten oft spuerbar. xhigh schliesst genau diese Luecke und ist laut Anthropic fuer Coding- und Agenten-Aufgaben optimal.

Tipps zur Auswahl

In 4.7 ist die Effort-Kalibrierung strenger — besonders low und medium halten sich enger an den Auftrag. Wer in 4.6 mit medium auskam, sollte bei 4.7 ggf. auf high oder xhigh hochstufen.

5. Task Budgets (Beta)

Mit Opus 4.7 gibt es das neue Beta-Feature Task Budgets: eine Vorab-Schaetzung des gesamten Token-Verbrauchs einer Agenten-Schleife.

Spezifikation

  • Beta-Header: task-budgets-2026-03-13
  • Minimum: 20.000 Tokens
  • Umfang: gesamte Agenten-Schleife inkl. Denken, Tool-Aufrufen und Output
  • Verhalten: Advisory-Limit (Richtwert), kein Hard Cap — bei Ueberschreitung wird nicht erzwungen abgebrochen

Warum sinnvoll?

Das bisherige max_tokens begrenzt nur die Ausgabe einer einzelnen Antwort. In Agenten-Laeufen verschraenken sich Denk-Tokens, Tool-Round-Trips und Multi-Step-Outputs — der Gesamtverbrauch der Aufgabe ist schwer abzuschaetzen.

Mit Task Budgets plant das Modell anhand des Budgets, mit welcher Tiefe und Geschwindigkeit es arbeitet. So lassen sich Vorgaben wie „nicht zu sehr in die Tiefe, lieber zuegig fertig" oder „bitte ausfuehrlich nachdenken" auf der Kostenseite kommunizieren.

Da es nur Advisory ist: wer wirklich erzwingen will, dass das Budget eingehalten wird, muss in der Anwendung einen eigenen Zaehler fuehren.

6. Auswirkungen des neuen Tokenizers

Opus 4.7 verwendet einen neuen Tokenizer: derselbe Text verbraucht 1,0–1,35x mehr Tokens als zuvor — je nach Inhalt bis zu +35%.

Auswirkungen auf Kosten und Kontextbudget

  • Hoehere Rechnung trotz gleichem Prompt moeglich — bei stabilem Preis steigt die Summe mit der Token-Zahl
  • Effektive Informationsmenge im 1M-Kontext sinkt — 1M Tokens bleiben 1M Tokens, aber dasselbe Dokument frisst mehr
  • Schaetzungen und Alarme neu kalibrieren — wer Budgets oder Rate-Limits an alten Tokenzahlen aufgehaengt hat, muss neu rechnen

Praktisches Vorgehen

Vor dem Wechsel sollten folgende Punkte neu bewertet werden.

  1. Monatliche Kostenschaetzung — bis +35% bei gleichem Traffic
  2. Kontextfenster-Auslastung — Vorgaenge, die bisher knapp unter 1M lagen, kritisch pruefen
  3. Rate-Limit / Tokens-pro-Minute — Sicherheitsabstand zur TPM-Grenze neu pruefen
  4. Caching-Strategie — Trefferquote des Prompt-Caches kann sich verschieben

Die genaue Vorgehensweise fuer den Sprung von 4.6 zu 4.7 ist im spaeter verlinkten Migrationsleitfaden beschrieben.

7. Verhaltensaenderungen — was sich gegenueber 4.6 unterscheidet

Opus 4.7 hat nicht nur neue Funktionen — auch der Antwortstil hat sich gegenueber 4.6 verschoben.

Wichtige Verhaltensaenderungen

  • Treuere Befehlsbefolgung — vor allem bei niedrigem/mittlerem Effort, ohne unnoetige Zusaetze
  • Direkterer Ton — weniger Validierungsfloskeln („tolle Frage!"), weniger Hoeflichkeitsschnoerkel und Emojis
  • Antwortlaenge passt sich an — kurz bei einfachen, lang bei komplexen Aufgaben — keine Einheitslaenge
  • Weniger Tool-Aufrufe per Default — wo Reasoning genuegt, wird kein Tool benutzt
  • Weniger Sub-Agenten-Spawns — erst selbst denken, dann ggf. parallelisieren
  • Strengere Effort-Kalibrierung — low/medium halten sich enger an den Scope, weniger freie Auslegung

Auswirkungen auf vorhandene Prompts

Wer in 4.6 darauf vertraute, dass das Modell „freundlich nachgehakt" oder „viele Tools zur Sicherheit benutzt" hat, kann in 4.7 ein anderes Verhalten erleben.

  • Wer Erlaeuterungen will: „Begruende deine Antwort und nenne Alternativen" explizit fordern
  • Wer mehr Tool-Nutzung will: „Verwende WebSearch zur Faktenpruefung" konkret vorgeben
  • Wer laengere Antworten will: „mindestens 500 Zeichen" o.ae. ausdruecklich anfuehren

Insgesamt bewegt sich das Modell in Richtung „weniger ungefragt machen" — wer klare Anweisungen schreibt, bekommt vorhersehbares Verhalten.

Cybersicherheit, Schutzmechanismen und Sicherheit

Opus 4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Sicherheitsarbeit (Penetrationstests, Vulnerability Research, Red Teaming) kann je nach Kontext abgelehnt werden. Wer Sicherheitsanwendungen produktiv betreibt, sollte sich bei Anthropics Cyber Verification Program bewerben.

Auf der Sicherheitsseite nennt Anthropic offiziell folgende Verbesserungen:

  • Bessere Ehrlichkeit — sagt eher „weiss ich nicht", weniger duenne Behauptungen
  • Hoehere Resistenz gegen Prompt-Injection — staerker gegen Anweisungen Dritter
  • Mythos Preview ist derzeit am best ausgerichtet — Opus 4.7 bietet breitere Faehigkeiten, doch Mythos Preview liegt bei der Alignment-Praezision vorn

Andererseits werden Hinweise zu Schadenminderung bei kontrollierten Substanzen tendenziell weitlaeufiger (offiziell so kommuniziert). In Pharma-/Medizin-Chatbots empfiehlt sich Output-Filterung.

8. Breaking Changes

Opus 4.7 enthaelt mehrere Breaking Changes gegenueber 4.6. Bestehender 4.6-Code kann sonst 400-Fehler werfen.

Entfernte Parameter und Funktionen

FunktionVerhalten bis 4.6Verhalten in 4.7
Extended Thinkingthinking: {type: "enabled", budget_tokens: N} aktivierte Extended ThinkingGleiche Payload erzeugt 400-Fehler; Wechsel zu adaptive thinking
Adaptive ThinkingStandardmaessig anStandardmaessig aus; explizit per thinking: {type: "adaptive"}
Anzeige des Denkinhaltsstandardmaessig zurueckgegebenstandardmaessig weggelassen; per display: "summarized" aktivieren
temperature0,0–1,0 einstellbarAndere Werte als Standard erzeugen 400-Fehler
top_p / top_ksteuerbarAndere Werte als Standard erzeugen 400-Fehler
Assistant-Prefillassistant-Eintrag am Ende anhaengen, Modell setzt fort400-Fehler (uebernommen aus 4.6)

Was muss angepasst werden?

  1. Code mit Extended Thinking: thinking.type auf "adaptive" setzen, ggf. display ergaenzen
  2. Code mit temperature/top_p/top_k: Parameter entfernen; Determinismus auf Prompt-Ebene loesen
  3. Code mit Assistant-Prefill: Prefill in die Nutzerfrage integrieren oder per Output-Format-Hinweis ersetzen
  4. UI mit Denkanzeigen: ohne display: "summarized" wird kein Denkinhalt zurueckgegeben

Ausfuehrliche Anleitungen im Migrationsleitfaden.

9. Benchmarks

Detaillierte Werte sind zur Veroeffentlichung nur eingeschraenkt offengelegt; Anthropic spricht aber von klaren Verbesserungen bei Coding, Agenten und Vision.

Bereiche mit gemeldeten Verbesserungen

Offizielle Benchmark-Werte

Die wichtigsten von Anthropic mitgeteilten Werte:

BenchmarkOpus 4.6Opus 4.7Bereich
CursorBench58%70%Coding
CursorBench (visuell)54,5%98,5%UI-Screenshot-Verstaendnis
Rakuten-SWE-BenchAusgangswert3x Aufgaben geloestProduktive Code-Aenderungen
CyberGym73,8— (nicht veroeffentlicht)Sicherheit
Finance Agentstate-of-the-artFinanz-Agenten
GDPval-AAtop-tierWirtschaftlich wertvolle Wissensarbeit

Berichte aus dritter Hand und von Nutzern

  • 93-Aufgaben-Coding-Benchmark: rund +13% ggue. Opus 4.6
  • OfficeQA Pro (Dokument-Reasoning): ca. −21% Fehler
  • Factory Droids (echte Produktionsaufgaben): +10–15% Erfolgsrate

Praxis-Bewertung

Die obigen Werte stammen von Anthropic und Partnerunternehmen. Am verlaesslichsten ist jedoch die Messung mit der eigenen Workload. Da der neue Tokenizer Token-Zahlen verschiebt, sind Vorab-Benchmarks fuer Kosten und Latenz Pflicht.

Tipps fuer die Bewertung:

  1. Identische Eingaben an 4.6 und 4.7 schicken und Qualitaet, Laufzeit und Token-Verbrauch vergleichen
  2. Coding objektiv bewerten („lief auf Anhieb?", „Tests gruen?")
  3. Agenten anhand „Aufgaben-Erfolg" und „Tool-Anrufzahlen" beurteilen (in 4.7 weniger Tools — wenn Erfolg trotzdem steigt, klare Verbesserung)
  4. Vision-Tasks an realen Use-Cases mit hochaufloesenden Bildern (UI-Screenshots, Dokument-Scans) vergleichen

Verhaeltnis zur Mythos-Preview

Anthropic schreibt: Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate. Opus 4.7 ist breiter aufgestellt; bei der Cyber-Faehigkeit liegt Mythos Preview gezielt zurueck (sicherer Stufen-Rollout). Das oeffentliche Flaggschiff bleibt Opus 4.7.

10. Vergleich mit Opus 4.6 / 4.5 / 4.1

PunktOpus 4.1Opus 4.5Opus 4.6Opus 4.7
Preis (Input)$15$5$5$5
Preis (Output)$75$25$25$25
Max. Kontext200K200K1M1M
Max. Output32K64K128K128K
Max. Bildaufloesung1568px1568px1568px2576px
Effort-Levellow/medium/highlow/medium/high/maxlow/medium/high/maxlow/medium/high/xhigh/max
Extended Thinkingvorhandenvorhandenadaptiveadaptive (Default OFF)
Task Budgetsneinneinneinja (Beta)
temperature etc.nutzbarnutzbarnutzbarentfernt
Prefillnutzbarnutzbarentferntentfernt
Tokenizeraltaltaltneu (1,0–1,35x)

Werte gemaess offizieller Angaben vom 16. April 2026. Der Hauptpunkt von 4.6 → 4.7: mehr Funktionen, gleicher Preis.

11. Wann sollte man 4.7 einsetzen?

Opus 4.7 ist das Flaggschiff — aber nicht fuer alles die beste Wahl.

Wo Opus 4.7 ideal ist

  • Komplexes Coding — grosse Refactorings, Designentscheidungen, Multi-File-Aenderungen
  • Lange Agenten-Schleifen — Multi-Step-Automation, kombiniert mit Task Budgets
  • Vision mit hochaufloesenden Bildern — Computer Use, UI-Screenshot-Analyse, Dokument-OCR
  • Long-Context bis 1M Tokens — grosse Codebasen, lange Dokumente
  • Schwierigstes Reasoning — Mathematik, Forschungsanalysen, Strategieentwicklung

Wann Sonnet sinnvoll ist

  • Standard-QA, Klassifikation, Informationsextraktion
  • grosse Batch-Verarbeitung mit „solide klugen" Antworten zu geringeren Kosten
  • Echtzeit-Use-Cases mit besonders niedriger Latenz

Wann Haiku sinnvoll ist

  • einfaches Klassifizieren, Uebersetzen, Filtern in grossen Mengen zu minimalen Kosten
  • IoT/Edge oder andere Faelle, in denen die Antwortgeschwindigkeit zaehlt

Praktische Faustregel: nach aussen sichtbares (Code, komplexes Reasoning, Agent-Kern) mit Opus 4.7, massenhafte Hintergrundverarbeitung (Log-Klassifikation, Datenextraktion, Vorfilterung) mit Sonnet oder Haiku.

12. Neues in Claude Code — /ultrareview

Auch Claude Code (Anthropics offizielles CLI) wurde zur Opus-4.7-Veroeffentlichung aktualisiert; neu ist das Slash-Command /ultrareview.

Das kann /ultrareview

  • Code-Review mit der Tiefe von xhigh
  • Geht ueber normale Code-Reviews hinaus — Wiederverwendbarkeit, Fehlerbehandlung, Concurrency-Fallen, Sicherheitsrisiken inklusive
  • Identifiziert nicht nur Implementierungsfehler, sondern auch „suboptimale Designentscheidungen"

Wenn das bestehende /review einer „PR-Review" entspricht, dann ist /ultrareview eher eine Design-Review durch eine erfahrene Senior-Entwicklerin. Geeignet vor und nach grossen Features oder als Final Check vor einem Release.

Da /ultrareview mit xhigh-Tiefe arbeitet, kostet es mehr Zeit und Tokens als ein normaler Review. Faustregel: alltaeglich /review, an Meilensteinen /ultrareview.

Hoeherer Default-Effort im Max-Plan

Im Claude Code Max-Plan wird der Default-Effort fuer Opus 4.7 auf xhigh angehoben. Aufgaben, die zuvor mit high liefen, profitieren jetzt automatisch von tieferem Reasoning. Bessere Ergebnisse innerhalb des Token-Limits — Verbrauch steigt, Monitoring empfohlen.

Auto-Mode auch fuer Max-Nutzer

Der Auto-Mode, der zuvor nur in einigen Plaenen verfuegbar war, ist jetzt auch fuer Claude Code Max-Nutzer freigeschaltet. Er waehlt automatisch zwischen Opus, Sonnet und Haiku — fuer Kosten- und Geschwindigkeitsoptimierung.

FAQ

F. Kann eine 4.6-App ohne Anpassung auf 4.7 wechseln?

Viele Apps laufen nur durch Wechsel der Modell-ID, doch Anpassungen sind noetig, wenn (1) Extended Thinking via thinking: {type: "enabled"} verwendet wird, (2) temperature/top_p/top_k nicht auf Default gesetzt sind, (3) Assistant-Prefill genutzt wird, (4) der Denkinhalt im UI angezeigt wird. Andernfalls drohen 400-Fehler oder Verhaltensaenderungen. Details im Migrationsleitfaden.

F. Steigen die Kosten mit dem neuen Tokenizer wirklich?

Ja, derselbe Text verbraucht 1,0–1,35x mehr Tokens — im schlimmsten Fall etwa +35%. Andererseits gibt es Verhaltensaenderungen wie „weniger Tool-Aufrufe" und „kuerzere Antworten", sodass die Gesamtwirkung pro App variiert. Bei viel Traffic empfehlen wir einen Parallelbetrieb von 4.6 und 4.7 zur monatlichen Vergleichsmessung vor dem Umstieg.

F. Wie unterscheidet man xhigh und max?

Anthropic empfiehlt xhigh fuer Coding und Agenten; max fuer das schwierigste Reasoning. Implementierung, Refactoring, Testaufbau, Multi-Step-Planung von Agenten: xhigh trifft den Sweet Spot. Sehr schwierige Mathematik, Forschungsanalysen, Strategie: max. Tipp: erst xhigh probieren, bei Bedarf auf max gehen.

F. Warum ist Task Budgets kein Hard Cap?

Agenten-Schleifen verbrauchen pro Tool-Aufruf schwer vorhersagbar Tokens. Ein Hard Cap wuerde haeufig kurz vor dem Ziel abbrechen. Anthropic hat das Feature daher als Advisory ausgelegt: das Modell plant mit dem Budget, kann es aber leicht ueberziehen. Wer hart begrenzen will, baut einen eigenen Zaehler ein.

F. Wird hochaufloesendes Bild automatisch genutzt?

Ja: Mit der 4.7-Modell-ID werden gesendete Bilder bis 2576px in voller Aufloesung verarbeitet, ohne extra Opt-in. Allerdings sind das pro Bild rund 4.784 Tokens. Bei vielen Bildern kann das schnell teuer werden — wenn nicht noetig, vorab herunterskalieren.

F. Ohne temperature kein deterministischer Output mehr?

In 4.7 fuehren Nicht-Default-Werte fuer temperature/top_p/top_k zu 400-Fehlern. Determinismus erreicht man praktisch ueber strikt vorgegebene Output-Formate im Prompt (z.B. „Antworte als JSON exakt nach folgendem Schema"). Strukturierte Ausgabe (z.B. via response_format) erhoeht die Stabilitaet zusaetzlich.

F. Warum wird der Denkinhalt nicht standardmaessig zurueckgegeben?

In 4.7 ist der Denkinhalt standardmaessig weggelassen. Wer ihn anzeigen moechte, setzt display: "summarized". Hintergrund: „Denken ist Modellinternes — die finale Antwort ist das Hauptprodukt fuer Nutzer". Wer Debugging oder „das Modell denkt"-Animationen weiter zeigen will, setzt summarized explizit.

F. Was unterscheidet /ultrareview von /review in Claude Code?

/review entspricht einer normalen PR-Review (Codequalitaet, Bugs, Stil). /ultrareview arbeitet mit der Tiefe von xhigh und greift auch Designprobleme, Concurrency-Fallen, Sicherheitsrisiken sowie Wiederverwendbarkeit und Fehlerbehandlung auf. Verbraucht mehr Zeit und Tokens, aber sehr wertvoll vor wichtigen Merges. Alltag /review, Meilensteine /ultrareview.

F. Wie viel besser ist 4.7 in Benchmarks?

Aus offiziellen Angaben von Anthropic und Partnern: CursorBench: 58% → 70% (Coding), CursorBench visuell: 54,5% → 98,5% (UI-Screenshots), Rakuten-SWE-Bench: 3x mehr Aufgaben geloest. Aus Drittberichten: ca. +13% in einem 93-Aufgaben-Coding-Bench, ca. −21% Fehler in OfficeQA Pro, +10–15% Erfolgsrate bei Factory Droids. Finance Agent und GDPval-AA werden als state-of-the-art bzw. top-tier bewertet.

F. Was ist Mythos Preview? Staerker als Opus 4.7?

Mythos Preview ist ein internes, nicht oeffentliches Modell. Anthropic schreibt: „Mythos Preview hat derzeit die hoechste Alignment-Praezision und die niedrigste Fehlrate." Doch seine Cyber-Faehigkeiten sind bewusst gedrosselt; im allgemeinen Einsatz bleibt Opus 4.7 das staerkste oeffentliche Modell. Mythos uebertrifft 4.7 stellenweise, wird aber nur stufenweise und limitiert ausgerollt — sicher zuerst, dann mehr.

F. Sicherheitsarbeit (Pentests usw.) wird abgelehnt — was tun?

4.7 fuehrt einen Echtzeit-Cybersecurity-Schutz ein. Auch legitime Penetrationstests, Vulnerability Research und Red Teaming koennen je nach Kontext abgelehnt werden. Wer das produktiv braucht, bewirbt sich beim Anthropic Cyber Verification Program. Nach Freigabe gelten lockerere Einstellungen.

F. Wo finde ich die Benchmark-Werte von 4.7?

Zur Veroeffentlichung sind die Detailwerte nur teilweise offengelegt; Anthropic spricht von klaren Verbesserungen bei Coding, Agenten und Vision. Fuer Standard-Benchmarks wie SWE-bench lohnt es sich, auf Anthropics Blog, Modellkarte und Drittauswertungen zu warten. Da am verlaesslichsten die Messung mit der eigenen Workload ist, empfiehlt sich vor dem Produktiveinsatz ein A/B-Vergleich.

Dieser Artikel basiert auf den offiziellen Angaben vom 16. April 2026. Spezifikationen, Preise und Verfuegbarkeit koennen sich aendern — vor dem produktiven Einsatz die Anthropic-Dokumentation pruefen. Konkrete Migrationsschritte stehen im Migrationsleitfaden.