Le 16 avril 2026, Anthropic a officialise la sortie de Claude Opus 4.7, son modele phare. Identifiant de modele claude-opus-4-7, tarifs entree/sortie $5 / $25 par MTok, identiques a ceux de 4.6. Mais sous le capot, la version est truffee d'evolutions qui transforment profondement l'experience d'utilisation du modele frontier : images haute resolution, nouvel effort xhigh, task budgets (beta), nouveau tokeniseur, etc.

En contrepartie, certaines ruptures obligent a faire evoluer le code existant : l'API « extended thinking » disparait, les parametres de sampling temperature, top_p, top_k ne sont plus acceptes, et le prefill a ete retire.

Cet article passe en revue tout ce qui change, ce qui a evolue depuis 4.6 et les cas ou 4.7 fait vraiment la difference, sous un angle ingenieur.

Sortie de Claude Opus 4.7 -- panorama des nouveautes

1. La sortie en bref : date, contenu, tarifs, disponibilite

ItemValeur
Date de sortie16 avril 2026
Identifiant de modeleclaude-opus-4-7
Tarif entree$5 par million de tokens (identique a 4.6)
Tarif sortie$25 par million de tokens (identique a 4.6)
Fenetre de contexte1 000 000 tokens (tarif API standard, pas de supplement long contexte)
Sortie maximale128 000 tokens
Plateformesclaude.ai, API Anthropic, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Le point a retenir : la fenetre de 1M tokens est accessible au tarif standard, sans supplement. Certaines versions precedentes facturaient un supplement au-dela de 200K tokens ; 4.7 traite 1M au meme prix.

Opus 4.7 est disponible immediatement pour les abonnes payants de claude.ai (web / mobile), et il suffit de specifier l'identifiant de modele via API. La mise a disposition sur AWS Bedrock, Google Vertex AI et Microsoft Foundry est simultanee, donc la bascule est transparente pour les deploiements multi-cloud.

2. Resume des nouveautes

Les principales evolutions de 4.7 :

Nouveautes d'Opus 4.7 -- images HD, xhigh, task budgets, nouveau tokeniseur
  • Images haute resolution (premiere Claude) -- jusqu'a 2576 px / 3,75 megapixels (env. 3x plus qu'avant : 1568 px / 1,15 MP)
  • Meilleure perception bas niveau -- pointing, mesure, comptage, detection de bounding box plus precis
  • Nouveau niveau d'effort xhigh -- entre high et max, optimise pour le code et les agents
  • Task budgets (beta) -- estimation prealable du cout total d'une boucle d'agent
  • Nouveau tokeniseur -- 1,0 a 1,35x de tokens pour le meme texte (jusqu'a +35 % selon le contenu)
  • Pensee adaptative -- OFF par defaut (opt-in explicite requis)
  • Memoire fichiers renforcee -- meilleure exploitation des scratchpads et notes entre sessions
  • Travail de connaissance (.docx, .pptx) -- edition avec historique, mise en page de slides, meilleure analyse des graphiques
  • Integration Claude Code -- nouvelle commande /ultrareview, effort par defaut xhigh sur Max, Auto mode etendu aux utilisateurs Max
  • Protections cybersecurite en temps reel -- nouvelles regles de refus sur les sujets sensibles
  • Comportement -- plus fidele aux consignes, ton plus direct, moins d'appels d'outils

Les images haute resolution et le niveau xhigh sont particulierement impactants pour l'analyse de documents, le Computer Use et les agents de code. Voyons cela en detail.

3. Images haute resolution -- une premiere chez Claude

Opus 4.7 est le premier Claude a prendre en charge directement la haute resolution.

Evolution des resolutions

ItemOpus 4.6 et avantOpus 4.7
Resolution maxi (cote long)1568 px2576 px
Pixels maxi1,15 megapixels3,75 megapixels
Tokens pour une image pleine resolution~1 600 tokens~4 784 tokens (~3x)
Echelle des coordonneesPixels de l'image redimensionnee1:1 avec les pixels reels (sans conversion)

Ce que cela change

  • Analyse de documents -- caracteres fins d'un scan A4, filets de tableau, graduations de graphique deviennent lisibles
  • Computer Use -- captures d'ecran Full HD ou plus comprises telles quelles
  • Captures d'UI -- captures 4K ou haute densite traitees sans downsampling
  • Coordonnees 1:1 -- quand le modele renvoie des coordonnees (clics, etc.), plus besoin de convertir l'echelle, le code est plus simple

Attention toutefois : une image pleine resolution coute environ 4 784 tokens. Les agents qui echangent beaucoup de captures voient vite leur facture s'envoler. Quand la basse resolution suffit, il faut redimensionner en amont.

4. Niveaux d'effort -- le nouveau xhigh

Le reglage de la profondeur de la « extended thinking » passe par le « niveau d'effort (effort level) ». 4.7 ajoute xhigh.

Niveaux d'effort -- low/medium/high/xhigh/max

Comment utiliser les 5 paliers

NiveauDescriptionCas d'usage
lowReflexion minimale, priorite a la reactiviteQuestions courtes, classification, resume simple, chat
mediumRaisonnement moyenQA standard, extraction, generation legere
highRaisonnement profondDecisions de conception, analyse complexe, textes longs
xhigh (nouveau)Entre high et max, optimise pour code et agentsImplementation, agents multi-etapes, refactoring
maxProfondeur maximaleRaisonnement extreme, analyses de niveau recherche

Jusqu'a 4.6, il existait un trou « high ne suffit pas, mais max c'est trop » pour le code et les agents. xhigh est ajoute pour exactement combler cet intervalle ; Anthropic le recommande pour le code et les agents.

Conseils de choix

En 4.7, la calibration d'effort est plus stricte : low et medium gardent le perimetre demande sans deborder. Si une tache qui fonctionnait en medium en 4.6 vous semble desormais « trop serree », passez a high ou xhigh.

5. Task budgets (beta)

Opus 4.7 introduit une fonctionnalite beta, les task budgets : un moyen de communiquer a l'avance au modele une estimation des tokens qu'il peut depenser sur l'ensemble d'une boucle d'agent.

Specs

  • Beta header : task-budgets-2026-03-13
  • Minimum : 20 000 tokens
  • Perimetre : pensee + appels d'outils + sortie (toute la boucle d'agent)
  • Comportement : limite indicative (advisory), pas de cap dur : il n'y a pas d'arret force en cas de depassement

Pourquoi ?

Le max_tokens classique ne controle que la sortie d'une seule reponse. Or, en pratique, une execution d'agent melange tokens de pensee, allers-retours d'outils et sorties multi-etapes : il devenait difficile de prevoir combien de tokens serait depense au total.

En specifiant un task budget, le modele utilise cette enveloppe comme reference pour planifier son travail et ajuster profondeur et vitesse. « Reste leger, termine vite » ou, au contraire, « prends ton temps pour approfondir » : vous orientez le modele depuis l'angle du cout.

Comme c'est indicatif, si vous devez imposer un cap strict, mettez un compteur cote application en complement.

6. Impact du nouveau tokeniseur

Opus 4.7 utilise un nouveau tokeniseur qui consomme 1,0 a 1,35x plus de tokens que les versions precedentes pour le meme texte (jusqu'a +35 % selon le contenu).

Consequences sur les couts et l'espace de contexte

  • Facturation potentiellement superieure a prompt identique -- tarif inchange mais plus de tokens = addition plus grande
  • Moins d'informations tiennent reellement dans 1M -- c'est toujours 1M tokens, mais un document donne coute plus cher en tokens
  • Estimations et alertes a recalibrer -- toute logique basee sur les anciens comptages de tokens doit etre revue

A faire en pratique

Avant de basculer une application existante en 4.7, reevaluez les points suivants :

  1. Prevision de cout mensuel -- partir sur l'hypothese +35 % dans le pire cas pour le meme trafic
  2. Taux d'occupation du contexte -- surveiller les traitements qui etaient « tout juste sous 1M »
  3. Limites de rate-limit (TPM) -- reverifier la marge restante
  4. Strategie de cache -- le taux de hit sur le prompt caching peut changer

Le detail de la migration de 4.6 vers 4.7 est traite dans notre guide de migration.

7. Changements de comportement vs 4.6

Opus 4.7 n'ajoute pas que des fonctionnalites : le style meme des reponses a evolue par rapport a 4.6.

Evolutions principales

  • Plus fidele aux consignes -- surtout aux niveaux d'effort bas et moyens : le modele execute la demande sans rajouter d'informations
  • Ton plus direct -- moins de phrases de validation (« Excellente question ! »), de politesses excessives, d'emojis
  • Longueur adaptative -- court pour les questions simples, plus developpe pour les taches complexes : la verbosite uniforme disparait
  • Moins d'appels d'outils par defaut -- quand le raisonnement suffit, il raisonne au lieu d'appeler un outil inutilement
  • Moins de sous-agents spawnes -- il reflechit d'abord lui-meme avant de lancer des travaux paralleles
  • Calibration d'effort stricte -- low et medium restent dans le perimetre, sans extrapolation

Impact sur les prompts existants

Les prompts concus pour 4.6, qui comptaient sur l'ajout d'elements contextuels ou une utilisation abondante d'outils, peuvent se comporter differemment en 4.7.

  • Si vous voulez des complements, dites-le : « explique aussi le raisonnement et propose des alternatives »
  • Si vous voulez plus d'outils : « utilise imperativement WebSearch pour verifier les faits »
  • Si vous voulez une reponse plus longue : « rediger au moins 500 mots »

L'evolution globale va dans le sens du « le modele n'en fait pas trop » : ecrivez explicitement ce que vous voulez et il le fait, pour un comportement plus previsible.

Garde-fous de cybersecurite et surete

Opus 4.7 introduit de nouvelles protections de cybersecurite en temps reel : pentest, recherche de vulnerabilites, red-teaming peuvent etre refuses selon le contexte, meme pour un usage legitime. Pour ces cas d'usage en production, envisagez de postuler au Cyber Verification Program d'Anthropic.

Points positifs cote surete annonces officiellement :

  • Meilleure honnetete -- dire « je ne sais pas », eviter les affirmations non sourcees
  • Meilleure resistance a la prompt injection -- defense renforcee face aux instructions malveillantes
  • Mythos Preview reste le plus aligne aujourd'hui -- 4.7 a davantage de capacites, mais c'est Mythos Preview qui a la meilleure precision d'alignement

A l'inverse, le texte officiel signale que les conseils de reduction des risques concernant les substances controlees sont un peu plus verbeux. Pour les chatbots dans la pharma ou la sante, un filtrage en sortie est recommande.

8. Ruptures (breaking changes)

4.7 introduit plusieurs ruptures par rapport a 4.6. Du code ecrit pour 4.6 peut renvoyer un 400 tel quel.

Parametres et fonctions supprimes

Fonction4.6 et avant4.7
Extended thinkingthinking: {type: "enabled", budget_tokens: N}400 avec le meme payload ; passer a la pensee adaptative
Pensee adaptativeActivee par defautDesactivee par defaut ; opt-in explicite via thinking: {type: "adaptive"}
Contenu de penseeRenvoye par defautOmis par defaut ; specifier display: "summarized" pour l'afficher
temperatureAjustable de 0,0 a 1,0Toute valeur non par defaut renvoie 400
top_p / top_kParametrablesToute valeur non par defaut renvoie 400
Prefill assistantMessage assistant en tete pour forcer la suite400 (heritage de 4.6)

Ce qu'il faut corriger

  1. Code utilisant l'extended thinking : passer thinking.type a "adaptive" et ajouter display si besoin
  2. Code tuning de temperature etc. : supprimer ces parametres ; gerer le determinisme via le prompt
  3. Code utilisant le prefill : integrer la portion prefill dans le message utilisateur, ou specifier le format de sortie
  4. UI affichant la pensee : sans display: "summarized", le contenu de pensee n'est plus renvoye

Voir notre guide de migration pour les details.

9. Benchmarks

Les scores detailles ne sont que partiellement publies a la sortie, mais Anthropic annonce de larges ameliorations en code, agents et vision.

Domaines annonces en progres

Benchmarks officiels

Principaux chiffres presentes par Anthropic :

BenchmarkOpus 4.6Opus 4.7Domaine
CursorBench58 %70 %Code
CursorBench (precision visuelle)54,5 %98,5 %Comprehension captures UI
Rakuten-SWE-Benchbase3x plus de taches resoluesModifications de code reel
CyberGym73,8-- (non publie)Securite
Finance Agent--state-of-the-artAgents finance
GDPval-AA--top-tierTravail de connaissance a forte valeur

Rapports de tiers et d'utilisateurs

  • Benchmark de codage sur 93 taches : environ +13 % par rapport a Opus 4.6
  • OfficeQA Pro (raisonnement sur documents) : ~-21 % d'erreurs
  • Factory Droids (taches en production) : taux de reussite en hausse de 10 a 15 %

Evaluation sur le terrain

Ces donnees viennent d'Anthropic et de ses partenaires. Dans tous les cas, la mesure la plus fiable reste votre propre charge de travail. Comme le nouveau tokeniseur modifie les comptages, une mesure prealable de cout et de latence est indispensable.

Les bons reflexes :

  1. Envoyer la meme entree a 4.6 et 4.7, comparer qualite, duree et consommation de tokens
  2. Pour le code, evaluer sur « premier jet fonctionnel » et « tests verts »
  3. Pour les agents, suivre « taux de completion » et « nombre d'appels d'outils » (4.7 en fait moins, donc un taux qui monte = pur gain)
  4. Pour la vision, comparer sur des cas reels en haute resolution (captures UI, scans)

Positionnement par rapport a Mythos Preview

Anthropic indique que « Mythos Preview », un modele non public, est actuellement le plus aligne et celui qui commet le moins d'erreurs. Opus 4.7 couvre un perimetre de capacites plus large, mais reste en retrait de Mythos Preview sur la surete cyber (Anthropic teste les mesures de surete sur des modeles plus capables avant deploiement progressif). A date, le modele phare disponible au grand public reste Opus 4.7.

10. Comparatif Opus 4.6 / 4.5 / 4.1

ItemOpus 4.1Opus 4.5Opus 4.6Opus 4.7
Tarif entree$15$5$5$5
Tarif sortie$75$25$25$25
Contexte max200K200K1M1M
Sortie max32K64K128K128K
Resolution image max1568 px1568 px1568 px2576 px
Niveaux d'effortlow/medium/highlow/medium/high/maxlow/medium/high/maxlow/medium/high/xhigh/max
Extended thinkingOuiOuiPensee adaptativePensee adaptative (OFF par defaut)
Task budgetNonNonNonOui (beta)
temperature, etc.DisponibleDisponibleDisponibleSupprime
PrefillDisponibleDisponibleSupprimeSupprime
TokeniseurAncienAncienAncienNouveau (1,0-1,35x)

Chiffres au 16 avril 2026. Le point cle sur 4.6 -> 4.7 : plus de fonctionnalites, meme tarif.

11. Quand choisir Opus 4.7 ?

Opus 4.7 est le flagship, mais Opus n'est pas toujours le meilleur choix.

Cas ou 4.7 s'impose

  • Taches de code complexes -- gros refactoring, decisions de design, changements multi-fichiers
  • Boucles d'agent longues -- automatisations multi-etapes, combinaison avec les task budgets
  • Vision avec images haute resolution -- Computer Use, captures d'UI, OCR de documents
  • Long contexte (jusqu'a 1M) -- compreshension d'une grosse codebase, analyse de documents longs
  • Raisonnement extreme -- maths, analyses de niveau recherche, decisions strategiques

Quand envisager Sonnet

  • QA standardise, classification, extraction
  • Traitement batch massif ou un modele « correct » suffit
  • Reactivite temps reel plus importante que le raisonnement

Quand envisager Haiku

  • Classification, traduction, filtrage massifs a cout minimal
  • IoT, edge, exigences de latence extremes

La combinaison la plus rentable : Opus 4.7 cote visible (generation de code, raisonnement complexe, cerveau de l'agent), Sonnet ou Haiku cote arriere-plan (classification de logs, extraction, filtrage initial).

12. Nouveautes Claude Code -- /ultrareview

Claude Code (l'outil CLI officiel d'Anthropic) evolue aussi avec 4.7 : une nouvelle commande, /ultrareview, fait son apparition.

/ultrareview en bref

  • Effectue une revue du code modifie avec une profondeur equivalente a xhigh
  • Revue plus poussee que la simple relecture : reusabilite, gestion d'erreurs, pieges du parallelisme, risques de securite
  • Signale non seulement les bugs, mais aussi les mauvaises decisions de conception

Si /review correspond a « revue de PR classique », /ultrareview correspond a une revue de design par un senior. Utile avant un gros merge ou une release.

Comme elle mobilise la profondeur xhigh, /ultrareview consomme plus de temps et de tokens qu'une revue classique. Reservez-la aux moments cles ; /review reste votre outil quotidien.

Effort par defaut xhigh sur le plan Max

Pour les utilisateurs du plan Max de Claude Code, l'effort par defaut passe a xhigh avec Opus 4.7. Les taches quotidiennes qui tournaient en high beneficient automatiquement d'un raisonnement plus profond. Qualite en hausse, consommation en hausse -- a surveiller.

Auto mode etendu aux utilisateurs Max

L'Auto mode, jusqu'ici reserve a certains plans, est desormais disponible sur Claude Code Max. Il choisit automatiquement entre Opus, Sonnet et Haiku selon la tache, pour un meilleur compromis cout / vitesse.

FAQ

Q. Puis-je basculer une appli 4.6 vers 4.7 sans rien changer ?

La plupart des applis fonctionnent en changeant juste l'identifiant de modele. Mais une correction est indispensable si : (1) vous utilisez thinking: {type: "enabled"}, (2) vous utilisez temperature, top_p ou top_k hors valeurs par defaut, (3) vous utilisez le prefill assistant, (4) votre UI affiche la pensee. Ces cas declenchent une erreur 400 ou un changement de comportement. Voir le guide de migration pour les details.

Q. Les couts augmentent-ils reellement avec le nouveau tokeniseur ?

Avec 1,0 a 1,35x de tokens pour le meme texte, dans le pire cas la facture peut augmenter d'environ 35 %. En contrepartie, 4.7 appelle moins d'outils et produit des reponses plus concises, ce qui tire les couts vers le bas. Le resultat net depend de votre usage. Pour un trafic important, prevoyez une periode en double run 4.6 / 4.7 afin de mesurer le cout reel avant la bascule definitive.

Q. Quand choisir xhigh plutot que max ?

Anthropic recommande xhigh pour le code et les agents, max pour le « raisonnement extreme ». Pour l'implementation, le refactoring, l'ajout de tests, la planification d'agent, xhigh offre le meilleur ratio cout / qualite. Pour des problemes mathematiques difficiles, des analyses de niveau recherche ou du strategique, preferez max. Dans le doute, commencez en xhigh et montez en max si ce n'est pas suffisant.

Q. Pourquoi le task budget n'est-il pas un cap dur ?

Les boucles d'agent incluent des appels d'outils dont la consommation varie fortement. Un cap strict couperait regulierement la tache juste avant l'aboutissement -- d'ou le choix d'Anthropic de rester sur une limite indicative. Le modele l'utilise pour planifier, mais peut depasser si necessaire. Si un arret strict est obligatoire, implementez un compteur cote application.

Q. Les images haute resolution sont-elles actives automatiquement ?

Oui : specifiez l'identifiant 4.7, et vos images sont traitees jusqu'a 2576 px sans opt-in. Mais une image pleine resolution coute environ 4 784 tokens, donc un agent qui en echange beaucoup voit ses couts bondir. Si la haute resolution n'apporte rien, redimensionnez en amont.

Q. Comment garder des sorties deterministes sans temperature ?

En 4.7, toute valeur non par defaut pour temperature, top_p ou top_k renvoie une 400. Pour stabiliser les sorties, specifiez precisement le format dans le prompt (par exemple : « reponds en JSON strict selon le schema suivant »). Combine avec une specification de sortie structuree type response_format, la stabilite est amelioree.

Q. Pourquoi la pensee est-elle masquee par defaut ?

En 4.7, le contenu de pensee est omis par defaut ; ajoutez display: "summarized" pour l'afficher. L'idee : la pensee est un rouage interne, la reponse finale est le livrable. Si vous avez besoin de debug ou d'un affichage « en train de reflechir », specifiez summarized explicitement.

Q. /ultrareview et /review, quelle difference ?

/review correspond a une revue de PR standard : qualite, bugs, style. /ultrareview travaille a la profondeur xhigh : il traite aussi les questions de design, les pieges du parallelisme, les risques de securite, la reutilisabilite, la pertinence de la gestion d'erreurs. Plus couteuse en temps et en tokens, mais ideale juste avant un merge important. /review au quotidien, /ultrareview aux moments cles.

Q. Quels sont les gains chiffres sur les benchmarks ?

D'apres Anthropic et ses partenaires : CursorBench : 58 % -> 70 % (code), precision visuelle CursorBench : 54,5 % -> 98,5 % (captures UI), Rakuten-SWE-Bench : 3x plus de taches resolues. D'autres rapports annoncent ~+13 % sur 93 taches de code, ~-21 % d'erreurs sur OfficeQA Pro, +10 a 15 % de reussite sur Factory Droids. Sur Finance Agent et GDPval-AA, Anthropic parle de state-of-the-art / top-tier.

Q. C'est quoi Mythos Preview ? Est-il meilleur que 4.7 ?

Mythos Preview est un modele interne non public. Anthropic declare qu'il est le plus aligne et le moins sujet aux erreurs a ce jour, mais ses capacites cyber ont ete volontairement limitees le temps d'un deploiement progressif. En capacites generales, Opus 4.7 reste le modele le plus puissant accessible au grand public. Mythos depasse 4.7 sur certains benchmarks, mais reste en disponibilite limitee pour verifier la surete avant une ouverture plus large.

Q. Mon usage securite (pentest, etc.) est maintenant refuse, que faire ?

4.7 introduit des protections de cybersecurite en temps reel qui peuvent refuser pentest, recherche de vulnerabilites ou red-teaming selon le contexte, meme pour un usage legitime. Pour continuer en production, postulez au Cyber Verification Program. Apres validation, vous obtenez des reglages moins restrictifs.

Q. Ou trouver les scores de benchmark complets ?

A la sortie, Anthropic publie des chiffres limites et parle de « larges progres en code, agents et vision ». Pour les benchmarks standards type SWE-bench, attendez les publications officielles (blog Anthropic, model card) et les evaluations independantes. Dans tous les cas, la mesure la plus fiable est celle que vous effectuez sur votre propre charge : faites un A/B avant la mise en production.

Article redige le 16 avril 2026 a partir des informations officielles. Les specifications, tarifs et plateformes peuvent evoluer : verifiez la documentation Anthropic avant toute mise en production. Pour la migration, voir notre guide de migration.