Pourquoi le task budget n'est-il pas un cap dur ?

Les boucles d'agent incluent des appels d'outils dont la consommation varie fortement. Un cap strict couperait regulierement la tache juste avant l'aboutissement -- d'ou le choix d'Anthropic de rester sur une limite indicative. Le modele l'utilise pour planifier, mais peut depasser si necessaire. Si un arret strict est obligatoire, implementez un compteur cote application.

Claude Opus 4.7 : images HD, effort xhigh, task budgets et plus

Q: Puis-je basculer une appli 4.6 vers 4.7 sans rien changer ?

La plupart des applis fonctionnent en changeant juste l&#039;identifiant de modele. Mais une correction est indispensable si : (1) vous utilisez thinking: {type: &quot;enabled&quot;}, (2) vous utilisez temperature, top_p ou top_k hors valeurs par defaut, (3) vous utilisez le prefill assistant, (4) votre UI affiche la pensee. Ces cas declenchent une erreur 400 ou un changement de comportement. Voir le guide de migration pour les details.

Q: Quand choisir xhigh plutot que max ?

Anthropic recommande xhigh pour le code et les agents, max pour le « raisonnement extreme ». Pour l&#039;implementation, le refactoring, l&#039;ajout de tests, la planification d&#039;agent, xhigh offre le meilleur ratio cout / qualite. Pour des problemes mathematiques difficiles, des analyses de niveau recherche ou du strategique, preferez max. Dans le doute, commencez en xhigh et montez en max si ce n&#039;est pas suffisant.

Q: Pourquoi le task budget n&#039;est-il pas un cap dur ?

Les boucles d&#039;agent incluent des appels d&#039;outils dont la consommation varie fortement. Un cap strict couperait regulierement la tache juste avant l&#039;aboutissement -- d&#039;ou le choix d&#039;Anthropic de rester sur une limite indicative. Le modele l&#039;utilise pour planifier, mais peut depasser si necessaire. Si un arret strict est obligatoire, implementez un compteur cote application.

Q: Les images haute resolution sont-elles actives automatiquement ?

Oui : specifiez l&#039;identifiant 4.7, et vos images sont traitees jusqu&#039;a 2576 px sans opt-in. Mais une image pleine resolution coute environ 4 784 tokens, donc un agent qui en echange beaucoup voit ses couts bondir. Si la haute resolution n&#039;apporte rien, redimensionnez en amont.

Q: Comment garder des sorties deterministes sans temperature ?

En 4.7, toute valeur non par defaut pour temperature, top_p ou top_k renvoie une 400. Pour stabiliser les sorties, specifiez precisement le format dans le prompt (par exemple : « reponds en JSON strict selon le schema suivant »). Combine avec une specification de sortie structuree type response_format, la stabilite est amelioree.

Q: Pourquoi la pensee est-elle masquee par defaut ?

En 4.7, le contenu de pensee est omis par defaut ; ajoutez display: &quot;summarized&quot; pour l&#039;afficher. L&#039;idee : la pensee est un rouage interne, la reponse finale est le livrable. Si vous avez besoin de debug ou d&#039;un affichage « en train de reflechir », specifiez summarized explicitement.

Q: /ultrareview et /review, quelle difference ?

/review correspond a une revue de PR standard : qualite, bugs, style. /ultrareview travaille a la profondeur xhigh : il traite aussi les questions de design, les pieges du parallelisme, les risques de securite, la reutilisabilite, la pertinence de la gestion d&#039;erreurs. Plus couteuse en temps et en tokens, mais ideale juste avant un merge important. /review au quotidien, /ultrareview aux moments cles.

Q: Quels sont les gains chiffres sur les benchmarks ?

D&#039;apres Anthropic et ses partenaires : CursorBench : 58 % -&gt; 70 % (code), precision visuelle CursorBench : 54,5 % -&gt; 98,5 % (captures UI), Rakuten-SWE-Bench : 3x plus de taches resolues. D&#039;autres rapports annoncent ~+13 % sur 93 taches de code, ~-21 % d&#039;erreurs sur OfficeQA Pro, +10 a 15 % de reussite sur Factory Droids. Sur Finance Agent et GDPval-AA, Anthropic parle de state-of-the-art / top-tier.

Claude Opus 4.7 : tout savoir sur la nouvelle version -- fonctionnalites, benchmarks et tarifs

Sommaire

1. La sortie en bref : date, contenu, tarifs, disponibilite
2. Resume des nouveautes
3. Images haute resolution -- une premiere chez Claude
4. Niveaux d'effort -- le nouveau xhigh
5. Task budgets (beta)
6. Impact du nouveau tokeniseur
7. Changements de comportement vs 4.6
8. Ruptures (breaking changes)
9. Benchmarks
10. Comparatif Opus 4.6 / 4.5 / 4.1
11. Quand choisir Opus 4.7 ?
12. Nouveautes Claude Code -- /ultrareview et plan Max
FAQ

Le 16 avril 2026, Anthropic a officialise la sortie de Claude Opus 4.7, son modele phare. Identifiant de modele claude-opus-4-7, tarifs entree/sortie $5 / $25 par MTok, identiques a ceux de 4.6. Mais sous le capot, la version est truffee d'evolutions qui transforment profondement l'experience d'utilisation du modele frontier : images haute resolution, nouvel effort xhigh, task budgets (beta), nouveau tokeniseur, etc.

En contrepartie, certaines ruptures obligent a faire evoluer le code existant : l'API « extended thinking » disparait, les parametres de sampling temperature, top_p, top_k ne sont plus acceptes, et le prefill a ete retire.

Cet article passe en revue tout ce qui change, ce qui a evolue depuis 4.6 et les cas ou 4.7 fait vraiment la difference, sous un angle ingenieur.

Sortie de Claude Opus 4.7 -- panorama des nouveautes

1. La sortie en bref : date, contenu, tarifs, disponibilite

Item	Valeur
Date de sortie	16 avril 2026
Identifiant de modele	`claude-opus-4-7`
Tarif entree	$5 par million de tokens (identique a 4.6)
Tarif sortie	$25 par million de tokens (identique a 4.6)
Fenetre de contexte	1 000 000 tokens (tarif API standard, pas de supplement long contexte)
Sortie maximale	128 000 tokens
Plateformes	claude.ai, API Anthropic, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Le point a retenir : la fenetre de 1M tokens est accessible au tarif standard, sans supplement. Certaines versions precedentes facturaient un supplement au-dela de 200K tokens ; 4.7 traite 1M au meme prix.

Opus 4.7 est disponible immediatement pour les abonnes payants de claude.ai (web / mobile), et il suffit de specifier l'identifiant de modele via API. La mise a disposition sur AWS Bedrock, Google Vertex AI et Microsoft Foundry est simultanee, donc la bascule est transparente pour les deploiements multi-cloud.

2. Resume des nouveautes

Les principales evolutions de 4.7 :

Nouveautes d'Opus 4.7 -- images HD, xhigh, task budgets, nouveau tokeniseur

Images haute resolution (premiere Claude) -- jusqu'a 2576 px / 3,75 megapixels (env. 3x plus qu'avant : 1568 px / 1,15 MP)
Meilleure perception bas niveau -- pointing, mesure, comptage, detection de bounding box plus precis
Nouveau niveau d'effort xhigh -- entre high et max, optimise pour le code et les agents
Task budgets (beta) -- estimation prealable du cout total d'une boucle d'agent
Nouveau tokeniseur -- 1,0 a 1,35x de tokens pour le meme texte (jusqu'a +35 % selon le contenu)
Pensee adaptative -- OFF par defaut (opt-in explicite requis)
Memoire fichiers renforcee -- meilleure exploitation des scratchpads et notes entre sessions
Travail de connaissance (.docx, .pptx) -- edition avec historique, mise en page de slides, meilleure analyse des graphiques
Integration Claude Code -- nouvelle commande /ultrareview, effort par defaut xhigh sur Max, Auto mode etendu aux utilisateurs Max
Protections cybersecurite en temps reel -- nouvelles regles de refus sur les sujets sensibles
Comportement -- plus fidele aux consignes, ton plus direct, moins d'appels d'outils

Les images haute resolution et le niveau xhigh sont particulierement impactants pour l'analyse de documents, le Computer Use et les agents de code. Voyons cela en detail.

3. Images haute resolution -- une premiere chez Claude

Opus 4.7 est le premier Claude a prendre en charge directement la haute resolution.

Evolution des resolutions

Item	Opus 4.6 et avant	Opus 4.7
Resolution maxi (cote long)	1568 px	2576 px
Pixels maxi	1,15 megapixels	3,75 megapixels
Tokens pour une image pleine resolution	~1 600 tokens	~4 784 tokens (~3x)
Echelle des coordonnees	Pixels de l'image redimensionnee	1:1 avec les pixels reels (sans conversion)

Ce que cela change

Analyse de documents -- caracteres fins d'un scan A4, filets de tableau, graduations de graphique deviennent lisibles
Computer Use -- captures d'ecran Full HD ou plus comprises telles quelles
Captures d'UI -- captures 4K ou haute densite traitees sans downsampling
Coordonnees 1:1 -- quand le modele renvoie des coordonnees (clics, etc.), plus besoin de convertir l'echelle, le code est plus simple

Attention toutefois : une image pleine resolution coute environ 4 784 tokens. Les agents qui echangent beaucoup de captures voient vite leur facture s'envoler. Quand la basse resolution suffit, il faut redimensionner en amont.

4. Niveaux d'effort -- le nouveau xhigh

Le reglage de la profondeur de la « extended thinking » passe par le « niveau d'effort (effort level) ». 4.7 ajoute xhigh.

Niveaux d'effort -- low/medium/high/xhigh/max

Comment utiliser les 5 paliers

Niveau	Description	Cas d'usage
low	Reflexion minimale, priorite a la reactivite	Questions courtes, classification, resume simple, chat
medium	Raisonnement moyen	QA standard, extraction, generation legere
high	Raisonnement profond	Decisions de conception, analyse complexe, textes longs
xhigh (nouveau)	Entre high et max, optimise pour code et agents	Implementation, agents multi-etapes, refactoring
max	Profondeur maximale	Raisonnement extreme, analyses de niveau recherche

Jusqu'a 4.6, il existait un trou « high ne suffit pas, mais max c'est trop » pour le code et les agents. xhigh est ajoute pour exactement combler cet intervalle ; Anthropic le recommande pour le code et les agents.

Conseils de choix

En 4.7, la calibration d'effort est plus stricte : low et medium gardent le perimetre demande sans deborder. Si une tache qui fonctionnait en medium en 4.6 vous semble desormais « trop serree », passez a high ou xhigh.

5. Task budgets (beta)

Opus 4.7 introduit une fonctionnalite beta, les task budgets : un moyen de communiquer a l'avance au modele une estimation des tokens qu'il peut depenser sur l'ensemble d'une boucle d'agent.

Specs

Beta header : task-budgets-2026-03-13
Minimum : 20 000 tokens
Perimetre : pensee + appels d'outils + sortie (toute la boucle d'agent)
Comportement : limite indicative (advisory), pas de cap dur : il n'y a pas d'arret force en cas de depassement

Pourquoi ?

Le max_tokens classique ne controle que la sortie d'une seule reponse. Or, en pratique, une execution d'agent melange tokens de pensee, allers-retours d'outils et sorties multi-etapes : il devenait difficile de prevoir combien de tokens serait depense au total.

En specifiant un task budget, le modele utilise cette enveloppe comme reference pour planifier son travail et ajuster profondeur et vitesse. « Reste leger, termine vite » ou, au contraire, « prends ton temps pour approfondir » : vous orientez le modele depuis l'angle du cout.

Comme c'est indicatif, si vous devez imposer un cap strict, mettez un compteur cote application en complement.

6. Impact du nouveau tokeniseur

Opus 4.7 utilise un nouveau tokeniseur qui consomme 1,0 a 1,35x plus de tokens que les versions precedentes pour le meme texte (jusqu'a +35 % selon le contenu).

Consequences sur les couts et l'espace de contexte

Facturation potentiellement superieure a prompt identique -- tarif inchange mais plus de tokens = addition plus grande
Moins d'informations tiennent reellement dans 1M -- c'est toujours 1M tokens, mais un document donne coute plus cher en tokens
Estimations et alertes a recalibrer -- toute logique basee sur les anciens comptages de tokens doit etre revue

A faire en pratique

Avant de basculer une application existante en 4.7, reevaluez les points suivants :

Prevision de cout mensuel -- partir sur l'hypothese +35 % dans le pire cas pour le meme trafic
Taux d'occupation du contexte -- surveiller les traitements qui etaient « tout juste sous 1M »
Limites de rate-limit (TPM) -- reverifier la marge restante
Strategie de cache -- le taux de hit sur le prompt caching peut changer

Le detail de la migration de 4.6 vers 4.7 est traite dans notre guide de migration.

7. Changements de comportement vs 4.6

Opus 4.7 n'ajoute pas que des fonctionnalites : le style meme des reponses a evolue par rapport a 4.6.

Evolutions principales

Plus fidele aux consignes -- surtout aux niveaux d'effort bas et moyens : le modele execute la demande sans rajouter d'informations
Ton plus direct -- moins de phrases de validation (« Excellente question ! »), de politesses excessives, d'emojis
Longueur adaptative -- court pour les questions simples, plus developpe pour les taches complexes : la verbosite uniforme disparait
Moins d'appels d'outils par defaut -- quand le raisonnement suffit, il raisonne au lieu d'appeler un outil inutilement
Moins de sous-agents spawnes -- il reflechit d'abord lui-meme avant de lancer des travaux paralleles
Calibration d'effort stricte -- low et medium restent dans le perimetre, sans extrapolation

Impact sur les prompts existants

Les prompts concus pour 4.6, qui comptaient sur l'ajout d'elements contextuels ou une utilisation abondante d'outils, peuvent se comporter differemment en 4.7.

Si vous voulez des complements, dites-le : « explique aussi le raisonnement et propose des alternatives »
Si vous voulez plus d'outils : « utilise imperativement WebSearch pour verifier les faits »
Si vous voulez une reponse plus longue : « rediger au moins 500 mots »

L'evolution globale va dans le sens du « le modele n'en fait pas trop » : ecrivez explicitement ce que vous voulez et il le fait, pour un comportement plus previsible.

Garde-fous de cybersecurite et surete

Opus 4.7 introduit de nouvelles protections de cybersecurite en temps reel : pentest, recherche de vulnerabilites, red-teaming peuvent etre refuses selon le contexte, meme pour un usage legitime. Pour ces cas d'usage en production, envisagez de postuler au Cyber Verification Program d'Anthropic.

Points positifs cote surete annonces officiellement :

Meilleure honnetete -- dire « je ne sais pas », eviter les affirmations non sourcees
Meilleure resistance a la prompt injection -- defense renforcee face aux instructions malveillantes
Mythos Preview reste le plus aligne aujourd'hui -- 4.7 a davantage de capacites, mais c'est Mythos Preview qui a la meilleure precision d'alignement

A l'inverse, le texte officiel signale que les conseils de reduction des risques concernant les substances controlees sont un peu plus verbeux. Pour les chatbots dans la pharma ou la sante, un filtrage en sortie est recommande.

8. Ruptures (breaking changes)

4.7 introduit plusieurs ruptures par rapport a 4.6. Du code ecrit pour 4.6 peut renvoyer un 400 tel quel.

Parametres et fonctions supprimes

Fonction	4.6 et avant	4.7
Extended thinking	`thinking: {type: "enabled", budget_tokens: N}`	400 avec le meme payload ; passer a la pensee adaptative
Pensee adaptative	Activee par defaut	Desactivee par defaut ; opt-in explicite via `thinking: {type: "adaptive"}`
Contenu de pensee	Renvoye par defaut	Omis par defaut ; specifier `display: "summarized"` pour l'afficher
temperature	Ajustable de 0,0 a 1,0	Toute valeur non par defaut renvoie 400
top_p / top_k	Parametrables	Toute valeur non par defaut renvoie 400
Prefill assistant	Message assistant en tete pour forcer la suite	400 (heritage de 4.6)

Ce qu'il faut corriger

Code utilisant l'extended thinking : passer thinking.type a "adaptive" et ajouter display si besoin
Code tuning de temperature etc. : supprimer ces parametres ; gerer le determinisme via le prompt
Code utilisant le prefill : integrer la portion prefill dans le message utilisateur, ou specifier le format de sortie
UI affichant la pensee : sans display: "summarized", le contenu de pensee n'est plus renvoye

Voir notre guide de migration pour les details.

9. Benchmarks

Les scores detailles ne sont que partiellement publies a la sortie, mais Anthropic annonce de larges ameliorations en code, agents et vision.

Domaines annonces en progres

Benchmarks officiels

Principaux chiffres presentes par Anthropic :

Benchmark	Opus 4.6	Opus 4.7	Domaine
CursorBench	58 %	70 %	Code
CursorBench (precision visuelle)	54,5 %	98,5 %	Comprehension captures UI
Rakuten-SWE-Bench	base	3x plus de taches resolues	Modifications de code reel
CyberGym	73,8	-- (non publie)	Securite
Finance Agent	--	state-of-the-art	Agents finance
GDPval-AA	--	top-tier	Travail de connaissance a forte valeur

Rapports de tiers et d'utilisateurs

Benchmark de codage sur 93 taches : environ +13 % par rapport a Opus 4.6
OfficeQA Pro (raisonnement sur documents) : ~-21 % d'erreurs
Factory Droids (taches en production) : taux de reussite en hausse de 10 a 15 %

Evaluation sur le terrain

Ces donnees viennent d'Anthropic et de ses partenaires. Dans tous les cas, la mesure la plus fiable reste votre propre charge de travail. Comme le nouveau tokeniseur modifie les comptages, une mesure prealable de cout et de latence est indispensable.

Les bons reflexes :

Envoyer la meme entree a 4.6 et 4.7, comparer qualite, duree et consommation de tokens
Pour le code, evaluer sur « premier jet fonctionnel » et « tests verts »
Pour les agents, suivre « taux de completion » et « nombre d'appels d'outils » (4.7 en fait moins, donc un taux qui monte = pur gain)
Pour la vision, comparer sur des cas reels en haute resolution (captures UI, scans)

Positionnement par rapport a Mythos Preview

Anthropic indique que « Mythos Preview », un modele non public, est actuellement le plus aligne et celui qui commet le moins d'erreurs. Opus 4.7 couvre un perimetre de capacites plus large, mais reste en retrait de Mythos Preview sur la surete cyber (Anthropic teste les mesures de surete sur des modeles plus capables avant deploiement progressif). A date, le modele phare disponible au grand public reste Opus 4.7.

10. Comparatif Opus 4.6 / 4.5 / 4.1

Item	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
Tarif entree	$15	$5	$5	$5
Tarif sortie	$75	$25	$25	$25
Contexte max	200K	200K	1M	1M
Sortie max	32K	64K	128K	128K
Resolution image max	1568 px	1568 px	1568 px	2576 px
Niveaux d'effort	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
Extended thinking	Oui	Oui	Pensee adaptative	Pensee adaptative (OFF par defaut)
Task budget	Non	Non	Non	Oui (beta)
temperature, etc.	Disponible	Disponible	Disponible	Supprime
Prefill	Disponible	Disponible	Supprime	Supprime
Tokeniseur	Ancien	Ancien	Ancien	Nouveau (1,0-1,35x)

Chiffres au 16 avril 2026. Le point cle sur 4.6 -> 4.7 : plus de fonctionnalites, meme tarif.

11. Quand choisir Opus 4.7 ?

Opus 4.7 est le flagship, mais Opus n'est pas toujours le meilleur choix.

Cas ou 4.7 s'impose

Taches de code complexes -- gros refactoring, decisions de design, changements multi-fichiers
Boucles d'agent longues -- automatisations multi-etapes, combinaison avec les task budgets
Vision avec images haute resolution -- Computer Use, captures d'UI, OCR de documents
Long contexte (jusqu'a 1M) -- compreshension d'une grosse codebase, analyse de documents longs
Raisonnement extreme -- maths, analyses de niveau recherche, decisions strategiques

Quand envisager Sonnet

QA standardise, classification, extraction
Traitement batch massif ou un modele « correct » suffit
Reactivite temps reel plus importante que le raisonnement

Quand envisager Haiku

Classification, traduction, filtrage massifs a cout minimal
IoT, edge, exigences de latence extremes

La combinaison la plus rentable : Opus 4.7 cote visible (generation de code, raisonnement complexe, cerveau de l'agent), Sonnet ou Haiku cote arriere-plan (classification de logs, extraction, filtrage initial).

12. Nouveautes Claude Code -- /ultrareview

Claude Code (l'outil CLI officiel d'Anthropic) evolue aussi avec 4.7 : une nouvelle commande, /ultrareview, fait son apparition.

/ultrareview en bref

Effectue une revue du code modifie avec une profondeur equivalente a xhigh
Revue plus poussee que la simple relecture : reusabilite, gestion d'erreurs, pieges du parallelisme, risques de securite
Signale non seulement les bugs, mais aussi les mauvaises decisions de conception

Si /review correspond a « revue de PR classique », /ultrareview correspond a une revue de design par un senior. Utile avant un gros merge ou une release.

Comme elle mobilise la profondeur xhigh, /ultrareview consomme plus de temps et de tokens qu'une revue classique. Reservez-la aux moments cles ; /review reste votre outil quotidien.

Effort par defaut xhigh sur le plan Max

Pour les utilisateurs du plan Max de Claude Code, l'effort par defaut passe a xhigh avec Opus 4.7. Les taches quotidiennes qui tournaient en high beneficient automatiquement d'un raisonnement plus profond. Qualite en hausse, consommation en hausse -- a surveiller.

Auto mode etendu aux utilisateurs Max

L'Auto mode, jusqu'ici reserve a certains plans, est desormais disponible sur Claude Code Max. Il choisit automatiquement entre Opus, Sonnet et Haiku selon la tache, pour un meilleur compromis cout / vitesse.

FAQ

Q. Puis-je basculer une appli 4.6 vers 4.7 sans rien changer ?

La plupart des applis fonctionnent en changeant juste l'identifiant de modele. Mais une correction est indispensable si : (1) vous utilisez thinking: {type: "enabled"}, (2) vous utilisez temperature, top_p ou top_k hors valeurs par defaut, (3) vous utilisez le prefill assistant, (4) votre UI affiche la pensee. Ces cas declenchent une erreur 400 ou un changement de comportement. Voir le guide de migration pour les details.

Q. Les couts augmentent-ils reellement avec le nouveau tokeniseur ?

Avec 1,0 a 1,35x de tokens pour le meme texte, dans le pire cas la facture peut augmenter d'environ 35 %. En contrepartie, 4.7 appelle moins d'outils et produit des reponses plus concises, ce qui tire les couts vers le bas. Le resultat net depend de votre usage. Pour un trafic important, prevoyez une periode en double run 4.6 / 4.7 afin de mesurer le cout reel avant la bascule definitive.

Q. Quand choisir xhigh plutot que max ?

Anthropic recommande xhigh pour le code et les agents, max pour le « raisonnement extreme ». Pour l'implementation, le refactoring, l'ajout de tests, la planification d'agent, xhigh offre le meilleur ratio cout / qualite. Pour des problemes mathematiques difficiles, des analyses de niveau recherche ou du strategique, preferez max. Dans le doute, commencez en xhigh et montez en max si ce n'est pas suffisant.

Q. Pourquoi le task budget n'est-il pas un cap dur ?

Les boucles d'agent incluent des appels d'outils dont la consommation varie fortement. Un cap strict couperait regulierement la tache juste avant l'aboutissement -- d'ou le choix d'Anthropic de rester sur une limite indicative. Le modele l'utilise pour planifier, mais peut depasser si necessaire. Si un arret strict est obligatoire, implementez un compteur cote application.

Q. Les images haute resolution sont-elles actives automatiquement ?

Oui : specifiez l'identifiant 4.7, et vos images sont traitees jusqu'a 2576 px sans opt-in. Mais une image pleine resolution coute environ 4 784 tokens, donc un agent qui en echange beaucoup voit ses couts bondir. Si la haute resolution n'apporte rien, redimensionnez en amont.

Q. Comment garder des sorties deterministes sans temperature ?

En 4.7, toute valeur non par defaut pour temperature, top_p ou top_k renvoie une 400. Pour stabiliser les sorties, specifiez precisement le format dans le prompt (par exemple : « reponds en JSON strict selon le schema suivant »). Combine avec une specification de sortie structuree type response_format, la stabilite est amelioree.

Q. Pourquoi la pensee est-elle masquee par defaut ?

En 4.7, le contenu de pensee est omis par defaut ; ajoutez display: "summarized" pour l'afficher. L'idee : la pensee est un rouage interne, la reponse finale est le livrable. Si vous avez besoin de debug ou d'un affichage « en train de reflechir », specifiez summarized explicitement.

Q. /ultrareview et /review, quelle difference ?

/review correspond a une revue de PR standard : qualite, bugs, style. /ultrareview travaille a la profondeur xhigh : il traite aussi les questions de design, les pieges du parallelisme, les risques de securite, la reutilisabilite, la pertinence de la gestion d'erreurs. Plus couteuse en temps et en tokens, mais ideale juste avant un merge important. /review au quotidien, /ultrareview aux moments cles.

Q. Quels sont les gains chiffres sur les benchmarks ?

D'apres Anthropic et ses partenaires : CursorBench : 58 % -> 70 % (code), precision visuelle CursorBench : 54,5 % -> 98,5 % (captures UI), Rakuten-SWE-Bench : 3x plus de taches resolues. D'autres rapports annoncent ~+13 % sur 93 taches de code, ~-21 % d'erreurs sur OfficeQA Pro, +10 a 15 % de reussite sur Factory Droids. Sur Finance Agent et GDPval-AA, Anthropic parle de state-of-the-art / top-tier.

Q. C'est quoi Mythos Preview ? Est-il meilleur que 4.7 ?

Mythos Preview est un modele interne non public. Anthropic declare qu'il est le plus aligne et le moins sujet aux erreurs a ce jour, mais ses capacites cyber ont ete volontairement limitees le temps d'un deploiement progressif. En capacites generales, Opus 4.7 reste le modele le plus puissant accessible au grand public. Mythos depasse 4.7 sur certains benchmarks, mais reste en disponibilite limitee pour verifier la surete avant une ouverture plus large.

Q. Mon usage securite (pentest, etc.) est maintenant refuse, que faire ?

4.7 introduit des protections de cybersecurite en temps reel qui peuvent refuser pentest, recherche de vulnerabilites ou red-teaming selon le contexte, meme pour un usage legitime. Pour continuer en production, postulez au Cyber Verification Program. Apres validation, vous obtenez des reglages moins restrictifs.

Q. Ou trouver les scores de benchmark complets ?

A la sortie, Anthropic publie des chiffres limites et parle de « larges progres en code, agents et vision ». Pour les benchmarks standards type SWE-bench, attendez les publications officielles (blog Anthropic, model card) et les evaluations independantes. Dans tous les cas, la mesure la plus fiable est celle que vous effectuez sur votre propre charge : faites un A/B avant la mise en production.

Article redige le 16 avril 2026 a partir des informations officielles. Les specifications, tarifs et plateformes peuvent evoluer : verifiez la documentation Anthropic avant toute mise en production. Pour la migration, voir notre guide de migration.

Claude Opus 4.7 : tout savoir sur la nouvelle version -- fonctionnalites, benchmarks et tarifs