Claude Opus 4.7: imagens em HD, nivel xhigh e task budgets explicados

Q: P. Meu app em 4.6 roda em 4.7 so trocando o nome do modelo?

Muitos apps funcionam apenas com a troca do ID do modelo, mas precisam de ajuste se: (1) usam thinking: {type: &quot;enabled&quot;}; (2) definem temperature/top_p/top_k com valores nao-padrao; (3) usam prefill de assistant; (4) exibem thinking na UI. Esses casos podem gerar erro 400 ou mudanca de comportamento. Veja o guia de migracao.

Q: P. Como escolher entre xhigh e max?

A Anthropic recomenda xhigh para coding e agentes. Max e para &quot;raciocinio extremamente dificil&quot;. Implementacao, refatoracao, escrita de testes, planejamento multi-passo de agentes -- para isso, xhigh tem otimo custo-beneficio. Problemas matematicos dificeis, pesquisa avancada, estrategia -- para isso, max. Na duvida, comece em xhigh e suba para max se nao for suficiente.

Q: P. Sem temperature, da para garantir determinismo?

No 4.7, valores nao-padrao de temperature/top_p/top_k dao erro 400. Para determinismo, especifique o formato de saida com rigor no prompt (ex.: &quot;retorne em JSON seguindo estritamente este schema&quot;). Combinar com saida estruturada (algo como response_format) aumenta a estabilidade.

Q: P. Por que o conteudo do thinking nao aparece por padrao?

No 4.7, o conteudo do thinking fica omitido por padrao. Para ver, use display: &quot;summarized&quot;. A politica mudou: &quot;o pensamento e parte do processamento interno; a resposta final e o produto principal para o usuario&quot;. Se voce depurava com isso ou mostrava &quot;pensando...&quot; na UI, explicite o summarized.

Q: P. Qual a diferenca entre /ultrareview e /review do Claude Code?

/review e um review de PR tradicional: aponta qualidade do codigo, bugs e estilo. /ultrareview roda com profundidade equivalente a xhigh e aponta problemas de design, armadilhas de concorrencia, riscos de seguranca, reutilizacao e tratamento de erro. Consome mais tempo e tokens, mas e otimo em checks finais. No dia a dia, /review; em pontos-chave, /ultrareview.

Q: P. Quanto o benchmark melhorou?

Resumo dos numeros da Anthropic e parceiros: CursorBench: 58% -&amp;gt; 70% (coding), CursorBench em visao: 54,5% -&amp;gt; 98,5% (UI screenshots), Rakuten-SWE-Bench: 3x mais tarefas de producao resolvidas. Em relatos de terceiros: ~+13% em 93 tarefas de coding, ~-21% em erros no OfficeQA Pro, +10 a +15% em Factory Droids. Em Finance Agent e GDPval-AA, aparece como state-of-the-art / top-tier.

Lancamento do Claude Opus 4.7 -- Novidades, Benchmarks e Precos em Detalhe

Indice

1. Visao Geral do Lancamento -- Data, Preco e Onde Usar
2. O Que Ha de Novo
3. Suporte a Imagens em Alta Resolucao -- Primeiro no Claude
4. Niveis de Esforco -- Chega o xhigh
5. Task Budgets (Beta)
6. Impacto do Novo Tokenizador
7. Mudancas de Comportamento -- O Que Mudou desde o 4.6
8. Breaking Changes
9. Benchmarks
10. Comparativo com Opus 4.6 / 4.5 / 4.1
11. Quando Usar
12. Novidades no Claude Code -- /ultrareview e Max
FAQ

Em 16 de abril de 2026 a Anthropic lancou oficialmente o Claude Opus 4.7, seu modelo flagship. O ID do modelo e claude-opus-4-7 e o preco e $5 / $25 por MTok para entrada/saida -- mantido em relacao ao 4.6. Mas o conteudo e recheado de mudancas que reescrevem a experiencia de usar um modelo de fronteira: imagens em alta resolucao, novo nivel de esforco xhigh, task budgets (beta), novo tokenizador e muito mais.

Por outro lado, existem breaking changes importantes: o fim do extended thinking via API, a remocao dos parametros temperature / top_p / top_k e a remocao do prefill. Portanto, migrar o codigo existente e obrigatorio.

Neste artigo, com olhar de engenheiro, passamos por tudo: novidades, diferencas em relacao ao 4.6 e quando faz sentido usar.

1. Visao Geral do Lancamento -- Data, Preco e Onde Usar

Item	Conteudo
Data de lancamento	16 de abril de 2026
ID do modelo	`claude-opus-4-7`
Preco (entrada)	$5 por 1M tokens (igual ao 4.6)
Preco (saida)	$25 por 1M tokens (igual ao 4.6)
Janela de contexto	1.000.000 tokens (preco padrao, sem adicional para contexto longo)
Saida maxima	128.000 tokens
Plataformas	claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Destaque: "preco mantido + janela de 1M tokens no preco padrao". Em modelos anteriores, contextos longos (acima de 200K, por exemplo) costumavam ter cobranca adicional. No 4.7, voce usa 1M de tokens sem pagar extra.

O Opus 4.7 ja esta disponivel nos apps web/mobile do claude.ai para usuarios pagos e, na API, basta trocar o ID do modelo. Tambem e lancado em AWS Bedrock, Google Vertex AI e Microsoft Foundry simultaneamente, o que permite uso imediato em ambientes multicloud.

2. O Que Ha de Novo

Principais recursos adicionados/alterados no Opus 4.7:

Novidades do Opus 4.7 -- HD, xhigh, task budgets, novo tokenizador

Suporte a imagens em alta resolucao (inedito no Claude) -- ate 2576px / 3,75 megapixels (antes: 1568px / 1,15 MP, cerca de 3x mais)
Melhor percepcao de baixo nivel -- maior precisao em pointing, medicao, contagem e deteccao de bounding boxes
Novo nivel de esforco xhigh -- entre high e max. Otimo para coding e agentes
Task budgets (beta) -- novo recurso para estimar o uso de tokens do loop inteiro de um agente
Novo tokenizador -- consome 1,0 a 1,35x mais tokens que o anterior (ate 35% a mais em alguns casos)
Adaptive thinking -- agora vem OFF por padrao (precisa de opt-in explicito)
Melhorias em memoria baseada em sistema de arquivos -- scratchpads e notas entre varias sessoes funcionam melhor
Melhoria no trabalho com documentos (.docx, .pptx) -- edicao com track changes, layouts de slides, melhor analise de graficos e diagramas
Integracao com o Claude Code -- novo slash command /ultrareview; no plano Max, o effort padrao sobe para xhigh; Auto mode se estende a usuarios Max
Protecao em tempo real para ciberseguranca -- novas recusas em topicos de alto risco
Mudancas de comportamento -- mais literal, tom mais direto, menos chamadas de tool

Em especial, o suporte a imagens em HD e o nivel xhigh tem valor pratico real para analise de documentos, Computer Use e agentes de codigo. Vamos ver cada um a seguir.

3. Suporte a Imagens em Alta Resolucao -- Primeiro no Claude

O Opus 4.7 e o primeiro Claude a processar imagens em alta resolucao diretamente.

Mudanca na resolucao

Item	Opus 4.6 e anteriores	Opus 4.7
Resolucao maxima (lado maior)	1568px	2576px
Megapixels maximos	1,15 MP	3,75 MP
Tokens por imagem em HD	~1.600 tokens	~4.784 tokens (~3x)
Escala de coordenadas	Coordenadas da imagem reduzida	1:1 com pixels reais (sem conversao)

Qual o ganho

Analise de documentos -- letras pequenas, linhas de tabela e escalas de graficos de documentos escaneados ficam legiveis
Computer Use -- screenshots em Full HD ou mais podem ser enviadas direto
Entender capturas de UI -- imagens de telas 4K e displays high-DPI sao analisadas sem downsampling
Coordenadas 1:1 -- se o modelo retorna coordenadas de clique, voce nao precisa mais converter escala

Atencao: uma imagem em HD consome cerca de 4.784 tokens. Agentes que trocam muitas screenshots podem ver o custo de imagem disparar. Se nao precisa da resolucao maxima, avalie reduzir antes de enviar.

4. Niveis de Esforco -- Chega o xhigh

Ao "nivel de esforco (effort level)" que controla a profundidade do extended thinking do Claude, chegou o xhigh.

Niveis de esforco -- low/medium/high/xhigh/max

5 niveis e quando usar

Nivel	Caracteristicas	Casos indicados
low	Pensamento minimo. Resposta rapida	Perguntas curtas, classificacao, resumo simples, chat
medium	Raciocinio moderado	QA padrao, extracao de info, geracoes leves
high	Raciocinio profundo	Decisoes de design, analise complexa, textos longos
xhigh (novo)	Entre high e max. Otimizado para coding e agentes	Implementacao de codigo, agentes multi-passos, refatoracao
max	Profundidade maxima	Problemas matematicos dificeis, pesquisa

Ate o 4.6 existia o gap "high nao basta, mas max e demais" em coding e agentes. O xhigh foi criado para ocupar exatamente esse meio, e a Anthropic o recomenda para coding e agentes.

Dicas para escolher

No 4.7 a calibracao de esforco foi endurecida. Principalmente em low e medium, o modelo respeita o escopo com mais rigidez. Entao, se uma tarefa que rodava em medium parece "cortada demais", considere subir para high ou xhigh.

5. Task Budgets (Beta)

O Opus 4.7 traz Task Budgets, um recurso em beta para estimar antecipadamente quantos tokens o loop inteiro de um agente vai consumir.

Especificacoes

Beta header: task-budgets-2026-03-13
Valor minimo: 20.000 tokens
Escopo: loop inteiro do agente, incluindo pensamento, chamadas de tool e saida
Comportamento: e um limite consultivo (referencia), nao um limite rigido -- se estourar, nao para a execucao a forca

Por que existe

O max_tokens tradicional controla somente o limite de saida de uma unica resposta. Mas na execucao real de um agente, pensamento + idas e voltas de chamadas de tool + saida de varios passos se misturam, e fica dificil prever "quantos tokens a tarefa toda vai usar".

Ao definir um task budget, o modelo usa esse orcamento como guia para planejar o trabalho com profundidade e velocidade adequadas. Da para sinalizar "nao aprofunde muito, termine logo" ou "pense com calma" a partir do lado do custo.

Como e consultivo, se voce precisa garantir parada ao estourar o orcamento, mantenha um contador proprio na aplicacao.

6. Impacto do Novo Tokenizador

O Opus 4.7 usa um novo tokenizador e consome 1,0 a 1,35x mais tokens que modelos anteriores no mesmo texto. Em casos extremos, ate 35% a mais.

Efeito em custo e contexto

Mesmo prompt pode custar mais -- preco mantido, mas como sao mais tokens, o total sobe
Cabe menos informacao em 1M -- 1M tokens ainda sao 1M, mas o mesmo documento ocupa mais tokens
Estimativas e alertas precisam ser recalibrados -- se voce tinha orcamentos ou rate limits baseados na contagem antiga, recalcule

Acoes na pratica

Ao migrar uma aplicacao existente para o 4.7, reavalie:

Previsao mensal de custo -- considere ate 35% a mais com o mesmo trafego
Uso da janela de contexto -- cuidado se antes voce ficava "quase em 1M"
Rate limit e limite de tokens por minuto -- revise a folga em relacao ao TPM da organizacao
Estrategia de cache -- taxa de hit do prompt caching pode mudar

O passo a passo para migrar do 4.6 ao 4.7 esta detalhado no artigo do guia de migracao, mais adiante.

7. Mudancas de Comportamento -- O Que Mudou desde o 4.6

O Opus 4.7 nao e apenas ganhos de funcionalidade -- o proprio estilo de resposta mudou em relacao ao 4.6.

Principais mudancas

Mais literal -- especialmente em esforco baixo a medio, segue a instrucao sem adicionar comentarios supercifluos
Tom mais direto -- menos "validation phrases" ("otima pergunta!"), menos formalidades em excesso, menos emojis
Comprimento adaptado a tarefa -- perguntas simples recebem respostas curtas, tarefas complexas recebem respostas longas; acabou o "one-size-fits-all" verboso
Menos chamadas de tool por padrao -- se da para resolver no raciocinio, resolve; evita uso desnecessario de tools
Menos sub-agentes disparados -- em vez de paralelizar rapidamente, prefere pensar primeiro
Calibracao rigida do effort -- em low / medium, mantem escopo apertado e evita interpretacoes expansivas

Impacto em prompts existentes

Prompts escritos em 4.6 assumindo que o modelo "complementa gentilmente" ou agentes que assumiam "usar tools varias vezes para validar" podem mudar de comportamento no 4.7.

Se quer comentario adicional, pesa: "explique motivos e alternativas tambem"
Se quer mais uso de tools: "para confirmar fatos, use WebSearch obrigatoriamente"
Se quer resposta mais longa: "escreva pelo menos 500 caracteres"

No geral, o modelo "nao faz o que nao foi pedido" -- um comportamento mais previsivel onde instrucoes explicitas geram o que voce esperou.

Salvaguardas de ciberseguranca e seguranca

O Opus 4.7 incorpora salvaguardas de ciberseguranca em tempo real. Pentest, pesquisa de vulnerabilidade, red teaming e outras atividades legitimas de seguranca podem ser recusadas dependendo do contexto. Se voce usa para seguranca em producao, considere se inscrever no programa de verificacao cibernetica da Anthropic.

Em termos de seguranca, a Anthropic destaca:

Maior honestidade -- tende a dizer "nao sei" quando nao sabe, evita afirmacoes sem base
Maior robustez a prompt injection -- defesa contra injecoes maliciosas foi reforcada
Mythos Preview continua sendo o melhor em alignment -- o Opus 4.7 tem capacidade geral maior, mas a precisao de alignment ainda e maior no Mythos Preview

Por outro lado, foi reportado que as respostas de reducao de danos em topicos como substancias reguladas ficaram um pouco mais verbosas (confirmado pela Anthropic). Em chatbots de farmacia/saude, adicione filtros de saida.

8. Breaking Changes

O Opus 4.7 tem varios breaking changes em relacao ao 4.6. Codigo feito para o 4.6 pode dar erro 400 do jeito que esta.

Parametros e funcoes descontinuados

Funcao	Comportamento no 4.6	Comportamento no 4.7
Extended thinking	`thinking: {type: "enabled", budget_tokens: N}` ativa extended thinking	Mesmo payload gera erro 400. Migrou para adaptive thinking
Adaptive thinking	ON por padrao	OFF por padrao. Opt-in explicito com `thinking: {type: "adaptive"}`
Exibicao do thinking	Retornado por padrao	Omitido por padrao. Para ver, use `display: "summarized"`
temperature	Ajustavel entre 0.0 e 1.0	Valor nao-padrao gera erro 400
top_p / top_k	Controle de sampling disponivel	Valor nao-padrao gera erro 400
Prefill de assistant	Colocar mensagem assistant no inicio para continuar a geracao	Erro 400 (herdado do 4.6)

O que precisa arrumar

Codigo usando extended thinking: trocar thinking.type para "adaptive" e, se precisar, adicionar display
Codigo ajustando temperature etc.: remover esses parametros. Se precisar determinismo, resolva via prompt
Codigo usando prefill do assistant: incorporar o que era prefill na mensagem do usuario ou usar instrucoes de formato de saida
UI exibindo o thinking: sem display: "summarized", o conteudo de pensamento nao volta

O procedimento detalhado esta no guia de migracao.

9. Benchmarks

Ate o momento, os numeros detalhados foram divulgados de forma parcial. A Anthropic informa que houve melhorias significativas em coding, agentes e visao.

Benchmarks oficiais divulgados

Os principais numeros divulgados pela Anthropic:

Benchmark	Opus 4.6	Opus 4.7	Area
CursorBench	58%	70%	Coding
CursorBench (visao)	54,5%	98,5%	Entendimento de UI
Rakuten-SWE-Bench	baseline	3x mais tarefas resolvidas	Mudancas em codigo real
CyberGym	73,8	-- (nao divulgado)	Seguranca
Finance Agent	--	state-of-the-art	Agentes financeiros
GDPval-AA	--	top-tier	Trabalho de conhecimento de alto valor

Relatos de terceiros e usuarios

Benchmark de coding com 93 tarefas: cerca de +13% vs Opus 4.6
OfficeQA Pro (raciocinio com documentos): cerca de -21% em erros
Factory Droids (tarefas reais em producao): +10 a +15% em taxa de sucesso

Avaliacao pratica

Os numeros acima vem da Anthropic e de parceiros. Mesmo assim, medir no seu proprio workload e o indicador mais confiavel. Como o novo tokenizador muda a contagem no mesmo texto, benchmarks previos de custo e latencia sao obrigatorios.

Pontos-chave da avaliacao:

Mandar a mesma entrada para 4.6 e 4.7 e comparar qualidade de saida, tempo e consumo de tokens
Em coding, avaliar objetivamente por "funcionou de primeira?" e "os testes passam?"
Em agentes, avaliar em dois eixos: "taxa de conclusao" e "numero de chamadas de tool" (o 4.7 usa menos tools, entao se a taxa sobe, e melhoria real)
Em visao, comparar com casos reais em alta resolucao (screenshots de UI, scans de documentos)

Como fica o Mythos Preview

No anuncio oficial, a Anthropic diz que o modelo nao divulgado "Mythos Preview" e, por enquanto, o modelo com maior precisao de alignment e menor taxa de falha. O Opus 4.7 tem capacidade geral mais ampla, mas em capacidade cibernetica o Mythos Preview ainda leva (a politica e testar seguranca em modelos mais capazes antes de expandir). Para o usuario comum, o flagship disponivel hoje e o Opus 4.7.

10. Comparativo com Opus 4.6 / 4.5 / 4.1

Item	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
Preco (entrada)	$15	$5	$5	$5
Preco (saida)	$75	$25	$25	$25
Contexto maximo	200K	200K	1M	1M
Saida maxima	32K	64K	128K	128K
Resolucao max de imagem	1568px	1568px	1568px	2576px
Niveis de esforco	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
Extended thinking	Sim	Sim	Adaptive thinking	Adaptive thinking (OFF por padrao)
Task budgets	Nao	Nao	Nao	Sim (beta)
temperature etc.	Disponivel	Disponivel	Disponivel	Descontinuado
Prefill	Disponivel	Disponivel	Descontinuado	Descontinuado
Tokenizador	Antigo	Antigo	Antigo	Novo (1,0-1,35x)

Valores baseados nas informacoes oficiais de 16 de abril de 2026. O maior destaque em 4.6 -> 4.7 e ganho de funcionalidade com preco mantido.

11. Quando Usar

O Opus 4.7 e flagship, mas nem todo caso de uso pede Opus.

Quando o Opus 4.7 e a melhor opcao

Coding complexo -- refatoracao grande, decisoes de design, mudancas em varios arquivos
Loops longos de agentes -- automacao multi-passo, em combinacao com task budgets
Tarefas de visao com imagens HD -- Computer Use, analise de UI, OCR de documentos
Processamento com 1M de tokens -- entender grandes codebases, analisar documentos longos
Raciocinio dificil -- matematica, pesquisa, estrategia

Quando considerar Sonnet

QA padrao, classificacao, extracao de info
Batch em grande volume mantendo custo baixo com qualidade "boa o suficiente"
Experiencia em tempo real onde latencia curta e critica

Quando considerar Haiku

Classificacao / traducao / filtragem simples, com minimo custo em grande volume
IoT / edge onde velocidade de resposta e prioridade absoluta

Na pratica: para a parte que o usuario ve (codigo gerado, raciocinio complexo, nucleo do agente) use Opus 4.7; para batch no backend (classificacao de logs, extracao de dados, filtro primario) use Sonnet ou Haiku. Essa combinacao costuma ter o melhor custo-beneficio.

12. Novidades no Claude Code -- /ultrareview

O Claude Code (CLI oficial da Anthropic) tambem foi atualizado para o lancamento do Opus 4.7, incluindo o novo slash command /ultrareview.

Caracteristicas do /ultrareview

Faz review do codigo modificado com profundidade equivalente a xhigh
Vai alem do review comum -- reutilizacao, tratamento de erro, armadilhas de concorrencia, riscos de seguranca
Nao foca so em "bugs", mas tambem em "decisoes de design indesejaveis"

Enquanto o /review equivale a um review de PR, o /ultrareview equivale a um review de design feito por engenheiro senior. Ideal antes e depois de um recurso grande ou em um check final antes de release.

Como usa thinking em xhigh, consome mais tempo e tokens que um review normal. Recomendado: usar /review no dia a dia e /ultrareview em pontos-chave.

Effort padrao elevado no plano Max

Para usuarios do plano Max do Claude Code, o effort padrao ao usar Opus 4.7 sobe para xhigh. Tarefas do dia a dia passam a rodar automaticamente com raciocinio mais profundo. Dentro do limite de tokens, voce tem mais qualidade; por outro lado, o consumo sobe -- monitore.

Auto mode disponivel para usuarios Max

O Auto mode, antes restrito a alguns planos, agora tambem atende usuarios Max do Claude Code. Ele alterna entre Opus/Sonnet/Haiku conforme o tipo de tarefa, combinando otimizacao de custo e velocidade.

FAQ

P. Meu app em 4.6 roda em 4.7 so trocando o nome do modelo?

Muitos apps funcionam apenas com a troca do ID do modelo, mas precisam de ajuste se: (1) usam thinking: {type: "enabled"}; (2) definem temperature/top_p/top_k com valores nao-padrao; (3) usam prefill de assistant; (4) exibem thinking na UI. Esses casos podem gerar erro 400 ou mudanca de comportamento. Veja o guia de migracao.

P. O novo tokenizador realmente faz o custo subir?

Como o consumo pode subir 1,0 a 1,35x no mesmo texto, no pior caso o custo aumenta cerca de 35%. Por outro lado, o 4.7 tambem reduz chamadas de tool e encurta respostas por padrao, entao o total varia conforme o app. Para apps com bastante trafego, rode 4.6 e 4.7 em paralelo por algum tempo e meca o custo mensal real antes de migrar.

P. Como escolher entre xhigh e max?

A Anthropic recomenda xhigh para coding e agentes. Max e para "raciocinio extremamente dificil". Implementacao, refatoracao, escrita de testes, planejamento multi-passo de agentes -- para isso, xhigh tem otimo custo-beneficio. Problemas matematicos dificeis, pesquisa avancada, estrategia -- para isso, max. Na duvida, comece em xhigh e suba para max se nao for suficiente.

P. Por que o task_budget nao e um limite rigido?

No loop de um agente, as idas e voltas das chamadas de tool fazem o consumo de tokens oscilar de forma imprevisivel. Se fosse limite rigido, tarefas prestes a terminar seriam abortadas com frequencia. Por isso, a Anthropic desenhou como limite consultivo. O modelo ajusta o plano pensando no orcamento, mas pode ultrapassar um pouco se precisar. Para parada certa, implemente contador no lado da app.

P. O suporte a imagem HD liga automaticamente?

Sim. Basta usar o ID do modelo 4.7 que as imagens enviadas sao processadas com resolucao ate 2576px. Sem opt-in especial. Lembre: cada imagem em HD consome cerca de 4.784 tokens, e agentes que recebem muitas imagens podem ter um salto de custo. Se a resolucao maxima nao e necessaria, reduza antes de enviar.

P. Sem temperature, da para garantir determinismo?

No 4.7, valores nao-padrao de temperature/top_p/top_k dao erro 400. Para determinismo, especifique o formato de saida com rigor no prompt (ex.: "retorne em JSON seguindo estritamente este schema"). Combinar com saida estruturada (algo como response_format) aumenta a estabilidade.

P. Por que o conteudo do thinking nao aparece por padrao?

No 4.7, o conteudo do thinking fica omitido por padrao. Para ver, use display: "summarized". A politica mudou: "o pensamento e parte do processamento interno; a resposta final e o produto principal para o usuario". Se voce depurava com isso ou mostrava "pensando..." na UI, explicite o summarized.

P. Qual a diferenca entre /ultrareview e /review do Claude Code?

/review e um review de PR tradicional: aponta qualidade do codigo, bugs e estilo. /ultrareview roda com profundidade equivalente a xhigh e aponta problemas de design, armadilhas de concorrencia, riscos de seguranca, reutilizacao e tratamento de erro. Consome mais tempo e tokens, mas e otimo em checks finais. No dia a dia, /review; em pontos-chave, /ultrareview.

P. Quanto o benchmark melhorou?

Resumo dos numeros da Anthropic e parceiros: CursorBench: 58% -> 70% (coding), CursorBench em visao: 54,5% -> 98,5% (UI screenshots), Rakuten-SWE-Bench: 3x mais tarefas de producao resolvidas. Em relatos de terceiros: ~+13% em 93 tarefas de coding, ~-21% em erros no OfficeQA Pro, +10 a +15% em Factory Droids. Em Finance Agent e GDPval-AA, aparece como state-of-the-art / top-tier.

P. O que e o Mythos Preview? E mais forte que Opus 4.7?

Mythos Preview e um modelo interno nao divulgado da Anthropic. No anuncio, ela diz que o Mythos Preview "tem a maior precisao de alignment e a menor taxa de falha" atualmente, mas e uma liberacao gradual com capacidade cibernetica intencionalmente contida. Em capacidade geral, o Opus 4.7 e hoje o melhor modelo amplamente disponivel. O Mythos supera o 4.7 em parte dos benchmarks, mas a disponibilidade e limitada e a polica e expandir so apos confirmar seguranca.

P. Estou sendo recusado em trabalho de seguranca (pentest). O que fazer?

O 4.7 adiciona salvaguardas de ciberseguranca em tempo real. Pentest, pesquisa de vulnerabilidade e red teaming, mesmo legitimos, podem ser recusados conforme o contexto. Para manter o uso em producao, inscreva-se no Cyber Verification Program da Anthropic. Aprovado, voce passa a ter configuracoes menos restritivas.

P. Quero ver os scores de benchmark do 4.7. Onde encontro?

Ate agora, os numeros detalhados foram divulgados parcialmente. A Anthropic informa grandes ganhos em coding, agentes e visao. Para padroes como SWE-bench, acompanhe o blog oficial, a model card e avaliacoes de terceiros. Como foi dito, o mais confiavel e medir no seu proprio workload -- recomendo comparacoes A/B antes de colocar em producao.

Este artigo foi escrito com base nas informacoes oficiais de 16 de abril de 2026. Como especificacoes, precos e disponibilidade podem mudar, confira a documentacao oficial da Anthropic antes de usar em producao. Para o passo a passo de migracao, veja o guia de migracao.

Lancamento do Claude Opus 4.7 -- Novidades, Benchmarks e Precos em Detalhe