Indice
- 1. Visao Geral do Lancamento -- Data, Preco e Onde Usar
- 2. O Que Ha de Novo
- 3. Suporte a Imagens em Alta Resolucao -- Primeiro no Claude
- 4. Niveis de Esforco -- Chega o xhigh
- 5. Task Budgets (Beta)
- 6. Impacto do Novo Tokenizador
- 7. Mudancas de Comportamento -- O Que Mudou desde o 4.6
- 8. Breaking Changes
- 9. Benchmarks
- 10. Comparativo com Opus 4.6 / 4.5 / 4.1
- 11. Quando Usar
- 12. Novidades no Claude Code -- /ultrareview e Max
- FAQ
Em 16 de abril de 2026 a Anthropic lancou oficialmente o Claude Opus 4.7, seu modelo flagship. O ID do modelo e claude-opus-4-7 e o preco e $5 / $25 por MTok para entrada/saida -- mantido em relacao ao 4.6. Mas o conteudo e recheado de mudancas que reescrevem a experiencia de usar um modelo de fronteira: imagens em alta resolucao, novo nivel de esforco xhigh, task budgets (beta), novo tokenizador e muito mais.
Por outro lado, existem breaking changes importantes: o fim do extended thinking via API, a remocao dos parametros temperature / top_p / top_k e a remocao do prefill. Portanto, migrar o codigo existente e obrigatorio.
Neste artigo, com olhar de engenheiro, passamos por tudo: novidades, diferencas em relacao ao 4.6 e quando faz sentido usar.
1. Visao Geral do Lancamento -- Data, Preco e Onde Usar
| Item | Conteudo |
|---|---|
| Data de lancamento | 16 de abril de 2026 |
| ID do modelo | claude-opus-4-7 |
| Preco (entrada) | $5 por 1M tokens (igual ao 4.6) |
| Preco (saida) | $25 por 1M tokens (igual ao 4.6) |
| Janela de contexto | 1.000.000 tokens (preco padrao, sem adicional para contexto longo) |
| Saida maxima | 128.000 tokens |
| Plataformas | claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry |
Destaque: "preco mantido + janela de 1M tokens no preco padrao". Em modelos anteriores, contextos longos (acima de 200K, por exemplo) costumavam ter cobranca adicional. No 4.7, voce usa 1M de tokens sem pagar extra.
O Opus 4.7 ja esta disponivel nos apps web/mobile do claude.ai para usuarios pagos e, na API, basta trocar o ID do modelo. Tambem e lancado em AWS Bedrock, Google Vertex AI e Microsoft Foundry simultaneamente, o que permite uso imediato em ambientes multicloud.
2. O Que Ha de Novo
Principais recursos adicionados/alterados no Opus 4.7:
- Suporte a imagens em alta resolucao (inedito no Claude) -- ate 2576px / 3,75 megapixels (antes: 1568px / 1,15 MP, cerca de 3x mais)
- Melhor percepcao de baixo nivel -- maior precisao em pointing, medicao, contagem e deteccao de bounding boxes
- Novo nivel de esforco xhigh -- entre high e max. Otimo para coding e agentes
- Task budgets (beta) -- novo recurso para estimar o uso de tokens do loop inteiro de um agente
- Novo tokenizador -- consome 1,0 a 1,35x mais tokens que o anterior (ate 35% a mais em alguns casos)
- Adaptive thinking -- agora vem OFF por padrao (precisa de opt-in explicito)
- Melhorias em memoria baseada em sistema de arquivos -- scratchpads e notas entre varias sessoes funcionam melhor
- Melhoria no trabalho com documentos (.docx, .pptx) -- edicao com track changes, layouts de slides, melhor analise de graficos e diagramas
- Integracao com o Claude Code -- novo slash command
/ultrareview; no plano Max, o effort padrao sobe para xhigh; Auto mode se estende a usuarios Max - Protecao em tempo real para ciberseguranca -- novas recusas em topicos de alto risco
- Mudancas de comportamento -- mais literal, tom mais direto, menos chamadas de tool
Em especial, o suporte a imagens em HD e o nivel xhigh tem valor pratico real para analise de documentos, Computer Use e agentes de codigo. Vamos ver cada um a seguir.
3. Suporte a Imagens em Alta Resolucao -- Primeiro no Claude
O Opus 4.7 e o primeiro Claude a processar imagens em alta resolucao diretamente.
Mudanca na resolucao
| Item | Opus 4.6 e anteriores | Opus 4.7 |
|---|---|---|
| Resolucao maxima (lado maior) | 1568px | 2576px |
| Megapixels maximos | 1,15 MP | 3,75 MP |
| Tokens por imagem em HD | ~1.600 tokens | ~4.784 tokens (~3x) |
| Escala de coordenadas | Coordenadas da imagem reduzida | 1:1 com pixels reais (sem conversao) |
Qual o ganho
- Analise de documentos -- letras pequenas, linhas de tabela e escalas de graficos de documentos escaneados ficam legiveis
- Computer Use -- screenshots em Full HD ou mais podem ser enviadas direto
- Entender capturas de UI -- imagens de telas 4K e displays high-DPI sao analisadas sem downsampling
- Coordenadas 1:1 -- se o modelo retorna coordenadas de clique, voce nao precisa mais converter escala
Atencao: uma imagem em HD consome cerca de 4.784 tokens. Agentes que trocam muitas screenshots podem ver o custo de imagem disparar. Se nao precisa da resolucao maxima, avalie reduzir antes de enviar.
4. Niveis de Esforco -- Chega o xhigh
Ao "nivel de esforco (effort level)" que controla a profundidade do extended thinking do Claude, chegou o xhigh.
5 niveis e quando usar
| Nivel | Caracteristicas | Casos indicados |
|---|---|---|
| low | Pensamento minimo. Resposta rapida | Perguntas curtas, classificacao, resumo simples, chat |
| medium | Raciocinio moderado | QA padrao, extracao de info, geracoes leves |
| high | Raciocinio profundo | Decisoes de design, analise complexa, textos longos |
| xhigh (novo) | Entre high e max. Otimizado para coding e agentes | Implementacao de codigo, agentes multi-passos, refatoracao |
| max | Profundidade maxima | Problemas matematicos dificeis, pesquisa |
Ate o 4.6 existia o gap "high nao basta, mas max e demais" em coding e agentes. O xhigh foi criado para ocupar exatamente esse meio, e a Anthropic o recomenda para coding e agentes.
Dicas para escolher
No 4.7 a calibracao de esforco foi endurecida. Principalmente em low e medium, o modelo respeita o escopo com mais rigidez. Entao, se uma tarefa que rodava em medium parece "cortada demais", considere subir para high ou xhigh.
5. Task Budgets (Beta)
O Opus 4.7 traz Task Budgets, um recurso em beta para estimar antecipadamente quantos tokens o loop inteiro de um agente vai consumir.
Especificacoes
- Beta header:
task-budgets-2026-03-13 - Valor minimo: 20.000 tokens
- Escopo: loop inteiro do agente, incluindo pensamento, chamadas de tool e saida
- Comportamento: e um limite consultivo (referencia), nao um limite rigido -- se estourar, nao para a execucao a forca
Por que existe
O max_tokens tradicional controla somente o limite de saida de uma unica resposta. Mas na execucao real de um agente, pensamento + idas e voltas de chamadas de tool + saida de varios passos se misturam, e fica dificil prever "quantos tokens a tarefa toda vai usar".
Ao definir um task budget, o modelo usa esse orcamento como guia para planejar o trabalho com profundidade e velocidade adequadas. Da para sinalizar "nao aprofunde muito, termine logo" ou "pense com calma" a partir do lado do custo.
Como e consultivo, se voce precisa garantir parada ao estourar o orcamento, mantenha um contador proprio na aplicacao.
6. Impacto do Novo Tokenizador
O Opus 4.7 usa um novo tokenizador e consome 1,0 a 1,35x mais tokens que modelos anteriores no mesmo texto. Em casos extremos, ate 35% a mais.
Efeito em custo e contexto
- Mesmo prompt pode custar mais -- preco mantido, mas como sao mais tokens, o total sobe
- Cabe menos informacao em 1M -- 1M tokens ainda sao 1M, mas o mesmo documento ocupa mais tokens
- Estimativas e alertas precisam ser recalibrados -- se voce tinha orcamentos ou rate limits baseados na contagem antiga, recalcule
Acoes na pratica
Ao migrar uma aplicacao existente para o 4.7, reavalie:
- Previsao mensal de custo -- considere ate 35% a mais com o mesmo trafego
- Uso da janela de contexto -- cuidado se antes voce ficava "quase em 1M"
- Rate limit e limite de tokens por minuto -- revise a folga em relacao ao TPM da organizacao
- Estrategia de cache -- taxa de hit do prompt caching pode mudar
O passo a passo para migrar do 4.6 ao 4.7 esta detalhado no artigo do guia de migracao, mais adiante.
7. Mudancas de Comportamento -- O Que Mudou desde o 4.6
O Opus 4.7 nao e apenas ganhos de funcionalidade -- o proprio estilo de resposta mudou em relacao ao 4.6.
Principais mudancas
- Mais literal -- especialmente em esforco baixo a medio, segue a instrucao sem adicionar comentarios supercifluos
- Tom mais direto -- menos "validation phrases" ("otima pergunta!"), menos formalidades em excesso, menos emojis
- Comprimento adaptado a tarefa -- perguntas simples recebem respostas curtas, tarefas complexas recebem respostas longas; acabou o "one-size-fits-all" verboso
- Menos chamadas de tool por padrao -- se da para resolver no raciocinio, resolve; evita uso desnecessario de tools
- Menos sub-agentes disparados -- em vez de paralelizar rapidamente, prefere pensar primeiro
- Calibracao rigida do effort -- em low / medium, mantem escopo apertado e evita interpretacoes expansivas
Impacto em prompts existentes
Prompts escritos em 4.6 assumindo que o modelo "complementa gentilmente" ou agentes que assumiam "usar tools varias vezes para validar" podem mudar de comportamento no 4.7.
- Se quer comentario adicional, pesa: "explique motivos e alternativas tambem"
- Se quer mais uso de tools: "para confirmar fatos, use WebSearch obrigatoriamente"
- Se quer resposta mais longa: "escreva pelo menos 500 caracteres"
No geral, o modelo "nao faz o que nao foi pedido" -- um comportamento mais previsivel onde instrucoes explicitas geram o que voce esperou.
Salvaguardas de ciberseguranca e seguranca
O Opus 4.7 incorpora salvaguardas de ciberseguranca em tempo real. Pentest, pesquisa de vulnerabilidade, red teaming e outras atividades legitimas de seguranca podem ser recusadas dependendo do contexto. Se voce usa para seguranca em producao, considere se inscrever no programa de verificacao cibernetica da Anthropic.
Em termos de seguranca, a Anthropic destaca:
- Maior honestidade -- tende a dizer "nao sei" quando nao sabe, evita afirmacoes sem base
- Maior robustez a prompt injection -- defesa contra injecoes maliciosas foi reforcada
- Mythos Preview continua sendo o melhor em alignment -- o Opus 4.7 tem capacidade geral maior, mas a precisao de alignment ainda e maior no Mythos Preview
Por outro lado, foi reportado que as respostas de reducao de danos em topicos como substancias reguladas ficaram um pouco mais verbosas (confirmado pela Anthropic). Em chatbots de farmacia/saude, adicione filtros de saida.
8. Breaking Changes
O Opus 4.7 tem varios breaking changes em relacao ao 4.6. Codigo feito para o 4.6 pode dar erro 400 do jeito que esta.
Parametros e funcoes descontinuados
| Funcao | Comportamento no 4.6 | Comportamento no 4.7 |
|---|---|---|
| Extended thinking | thinking: {type: "enabled", budget_tokens: N} ativa extended thinking | Mesmo payload gera erro 400. Migrou para adaptive thinking |
| Adaptive thinking | ON por padrao | OFF por padrao. Opt-in explicito com thinking: {type: "adaptive"} |
| Exibicao do thinking | Retornado por padrao | Omitido por padrao. Para ver, use display: "summarized" |
| temperature | Ajustavel entre 0.0 e 1.0 | Valor nao-padrao gera erro 400 |
| top_p / top_k | Controle de sampling disponivel | Valor nao-padrao gera erro 400 |
| Prefill de assistant | Colocar mensagem assistant no inicio para continuar a geracao | Erro 400 (herdado do 4.6) |
O que precisa arrumar
- Codigo usando extended thinking: trocar
thinking.typepara"adaptive"e, se precisar, adicionardisplay - Codigo ajustando temperature etc.: remover esses parametros. Se precisar determinismo, resolva via prompt
- Codigo usando prefill do assistant: incorporar o que era prefill na mensagem do usuario ou usar instrucoes de formato de saida
- UI exibindo o thinking: sem
display: "summarized", o conteudo de pensamento nao volta
O procedimento detalhado esta no guia de migracao.
9. Benchmarks
Ate o momento, os numeros detalhados foram divulgados de forma parcial. A Anthropic informa que houve melhorias significativas em coding, agentes e visao.
Benchmarks oficiais divulgados
Os principais numeros divulgados pela Anthropic:
| Benchmark | Opus 4.6 | Opus 4.7 | Area |
|---|---|---|---|
| CursorBench | 58% | 70% | Coding |
| CursorBench (visao) | 54,5% | 98,5% | Entendimento de UI |
| Rakuten-SWE-Bench | baseline | 3x mais tarefas resolvidas | Mudancas em codigo real |
| CyberGym | 73,8 | -- (nao divulgado) | Seguranca |
| Finance Agent | -- | state-of-the-art | Agentes financeiros |
| GDPval-AA | -- | top-tier | Trabalho de conhecimento de alto valor |
Relatos de terceiros e usuarios
- Benchmark de coding com 93 tarefas: cerca de +13% vs Opus 4.6
- OfficeQA Pro (raciocinio com documentos): cerca de -21% em erros
- Factory Droids (tarefas reais em producao): +10 a +15% em taxa de sucesso
Avaliacao pratica
Os numeros acima vem da Anthropic e de parceiros. Mesmo assim, medir no seu proprio workload e o indicador mais confiavel. Como o novo tokenizador muda a contagem no mesmo texto, benchmarks previos de custo e latencia sao obrigatorios.
Pontos-chave da avaliacao:
- Mandar a mesma entrada para 4.6 e 4.7 e comparar qualidade de saida, tempo e consumo de tokens
- Em coding, avaliar objetivamente por "funcionou de primeira?" e "os testes passam?"
- Em agentes, avaliar em dois eixos: "taxa de conclusao" e "numero de chamadas de tool" (o 4.7 usa menos tools, entao se a taxa sobe, e melhoria real)
- Em visao, comparar com casos reais em alta resolucao (screenshots de UI, scans de documentos)
Como fica o Mythos Preview
No anuncio oficial, a Anthropic diz que o modelo nao divulgado "Mythos Preview" e, por enquanto, o modelo com maior precisao de alignment e menor taxa de falha. O Opus 4.7 tem capacidade geral mais ampla, mas em capacidade cibernetica o Mythos Preview ainda leva (a politica e testar seguranca em modelos mais capazes antes de expandir). Para o usuario comum, o flagship disponivel hoje e o Opus 4.7.
10. Comparativo com Opus 4.6 / 4.5 / 4.1
| Item | Opus 4.1 | Opus 4.5 | Opus 4.6 | Opus 4.7 |
|---|---|---|---|---|
| Preco (entrada) | $15 | $5 | $5 | $5 |
| Preco (saida) | $75 | $25 | $25 | $25 |
| Contexto maximo | 200K | 200K | 1M | 1M |
| Saida maxima | 32K | 64K | 128K | 128K |
| Resolucao max de imagem | 1568px | 1568px | 1568px | 2576px |
| Niveis de esforco | low/medium/high | low/medium/high/max | low/medium/high/max | low/medium/high/xhigh/max |
| Extended thinking | Sim | Sim | Adaptive thinking | Adaptive thinking (OFF por padrao) |
| Task budgets | Nao | Nao | Nao | Sim (beta) |
| temperature etc. | Disponivel | Disponivel | Disponivel | Descontinuado |
| Prefill | Disponivel | Disponivel | Descontinuado | Descontinuado |
| Tokenizador | Antigo | Antigo | Antigo | Novo (1,0-1,35x) |
Valores baseados nas informacoes oficiais de 16 de abril de 2026. O maior destaque em 4.6 -> 4.7 e ganho de funcionalidade com preco mantido.
11. Quando Usar
O Opus 4.7 e flagship, mas nem todo caso de uso pede Opus.
Quando o Opus 4.7 e a melhor opcao
- Coding complexo -- refatoracao grande, decisoes de design, mudancas em varios arquivos
- Loops longos de agentes -- automacao multi-passo, em combinacao com task budgets
- Tarefas de visao com imagens HD -- Computer Use, analise de UI, OCR de documentos
- Processamento com 1M de tokens -- entender grandes codebases, analisar documentos longos
- Raciocinio dificil -- matematica, pesquisa, estrategia
Quando considerar Sonnet
- QA padrao, classificacao, extracao de info
- Batch em grande volume mantendo custo baixo com qualidade "boa o suficiente"
- Experiencia em tempo real onde latencia curta e critica
Quando considerar Haiku
- Classificacao / traducao / filtragem simples, com minimo custo em grande volume
- IoT / edge onde velocidade de resposta e prioridade absoluta
Na pratica: para a parte que o usuario ve (codigo gerado, raciocinio complexo, nucleo do agente) use Opus 4.7; para batch no backend (classificacao de logs, extracao de dados, filtro primario) use Sonnet ou Haiku. Essa combinacao costuma ter o melhor custo-beneficio.
12. Novidades no Claude Code -- /ultrareview
O Claude Code (CLI oficial da Anthropic) tambem foi atualizado para o lancamento do Opus 4.7, incluindo o novo slash command /ultrareview.
Caracteristicas do /ultrareview
- Faz review do codigo modificado com profundidade equivalente a xhigh
- Vai alem do review comum -- reutilizacao, tratamento de erro, armadilhas de concorrencia, riscos de seguranca
- Nao foca so em "bugs", mas tambem em "decisoes de design indesejaveis"
Enquanto o /review equivale a um review de PR, o /ultrareview equivale a um review de design feito por engenheiro senior. Ideal antes e depois de um recurso grande ou em um check final antes de release.
Como usa thinking em xhigh, consome mais tempo e tokens que um review normal. Recomendado: usar /review no dia a dia e /ultrareview em pontos-chave.
Effort padrao elevado no plano Max
Para usuarios do plano Max do Claude Code, o effort padrao ao usar Opus 4.7 sobe para xhigh. Tarefas do dia a dia passam a rodar automaticamente com raciocinio mais profundo. Dentro do limite de tokens, voce tem mais qualidade; por outro lado, o consumo sobe -- monitore.
Auto mode disponivel para usuarios Max
O Auto mode, antes restrito a alguns planos, agora tambem atende usuarios Max do Claude Code. Ele alterna entre Opus/Sonnet/Haiku conforme o tipo de tarefa, combinando otimizacao de custo e velocidade.
FAQ
P. Meu app em 4.6 roda em 4.7 so trocando o nome do modelo?
Muitos apps funcionam apenas com a troca do ID do modelo, mas precisam de ajuste se: (1) usam thinking: {type: "enabled"}; (2) definem temperature/top_p/top_k com valores nao-padrao; (3) usam prefill de assistant; (4) exibem thinking na UI. Esses casos podem gerar erro 400 ou mudanca de comportamento. Veja o guia de migracao.
P. O novo tokenizador realmente faz o custo subir?
Como o consumo pode subir 1,0 a 1,35x no mesmo texto, no pior caso o custo aumenta cerca de 35%. Por outro lado, o 4.7 tambem reduz chamadas de tool e encurta respostas por padrao, entao o total varia conforme o app. Para apps com bastante trafego, rode 4.6 e 4.7 em paralelo por algum tempo e meca o custo mensal real antes de migrar.
P. Como escolher entre xhigh e max?
A Anthropic recomenda xhigh para coding e agentes. Max e para "raciocinio extremamente dificil". Implementacao, refatoracao, escrita de testes, planejamento multi-passo de agentes -- para isso, xhigh tem otimo custo-beneficio. Problemas matematicos dificeis, pesquisa avancada, estrategia -- para isso, max. Na duvida, comece em xhigh e suba para max se nao for suficiente.
P. Por que o task_budget nao e um limite rigido?
No loop de um agente, as idas e voltas das chamadas de tool fazem o consumo de tokens oscilar de forma imprevisivel. Se fosse limite rigido, tarefas prestes a terminar seriam abortadas com frequencia. Por isso, a Anthropic desenhou como limite consultivo. O modelo ajusta o plano pensando no orcamento, mas pode ultrapassar um pouco se precisar. Para parada certa, implemente contador no lado da app.
P. O suporte a imagem HD liga automaticamente?
Sim. Basta usar o ID do modelo 4.7 que as imagens enviadas sao processadas com resolucao ate 2576px. Sem opt-in especial. Lembre: cada imagem em HD consome cerca de 4.784 tokens, e agentes que recebem muitas imagens podem ter um salto de custo. Se a resolucao maxima nao e necessaria, reduza antes de enviar.
P. Sem temperature, da para garantir determinismo?
No 4.7, valores nao-padrao de temperature/top_p/top_k dao erro 400. Para determinismo, especifique o formato de saida com rigor no prompt (ex.: "retorne em JSON seguindo estritamente este schema"). Combinar com saida estruturada (algo como response_format) aumenta a estabilidade.
P. Por que o conteudo do thinking nao aparece por padrao?
No 4.7, o conteudo do thinking fica omitido por padrao. Para ver, use display: "summarized". A politica mudou: "o pensamento e parte do processamento interno; a resposta final e o produto principal para o usuario". Se voce depurava com isso ou mostrava "pensando..." na UI, explicite o summarized.
P. Qual a diferenca entre /ultrareview e /review do Claude Code?
/review e um review de PR tradicional: aponta qualidade do codigo, bugs e estilo. /ultrareview roda com profundidade equivalente a xhigh e aponta problemas de design, armadilhas de concorrencia, riscos de seguranca, reutilizacao e tratamento de erro. Consome mais tempo e tokens, mas e otimo em checks finais. No dia a dia, /review; em pontos-chave, /ultrareview.
P. Quanto o benchmark melhorou?
Resumo dos numeros da Anthropic e parceiros: CursorBench: 58% -> 70% (coding), CursorBench em visao: 54,5% -> 98,5% (UI screenshots), Rakuten-SWE-Bench: 3x mais tarefas de producao resolvidas. Em relatos de terceiros: ~+13% em 93 tarefas de coding, ~-21% em erros no OfficeQA Pro, +10 a +15% em Factory Droids. Em Finance Agent e GDPval-AA, aparece como state-of-the-art / top-tier.
P. O que e o Mythos Preview? E mais forte que Opus 4.7?
Mythos Preview e um modelo interno nao divulgado da Anthropic. No anuncio, ela diz que o Mythos Preview "tem a maior precisao de alignment e a menor taxa de falha" atualmente, mas e uma liberacao gradual com capacidade cibernetica intencionalmente contida. Em capacidade geral, o Opus 4.7 e hoje o melhor modelo amplamente disponivel. O Mythos supera o 4.7 em parte dos benchmarks, mas a disponibilidade e limitada e a polica e expandir so apos confirmar seguranca.
P. Estou sendo recusado em trabalho de seguranca (pentest). O que fazer?
O 4.7 adiciona salvaguardas de ciberseguranca em tempo real. Pentest, pesquisa de vulnerabilidade e red teaming, mesmo legitimos, podem ser recusados conforme o contexto. Para manter o uso em producao, inscreva-se no Cyber Verification Program da Anthropic. Aprovado, voce passa a ter configuracoes menos restritivas.
P. Quero ver os scores de benchmark do 4.7. Onde encontro?
Ate agora, os numeros detalhados foram divulgados parcialmente. A Anthropic informa grandes ganhos em coding, agentes e visao. Para padroes como SWE-bench, acompanhe o blog oficial, a model card e avaliacoes de terceiros. Como foi dito, o mais confiavel e medir no seu proprio workload -- recomendo comparacoes A/B antes de colocar em producao.
Este artigo foi escrito com base nas informacoes oficiais de 16 de abril de 2026. Como especificacoes, precos e disponibilidade podem mudar, confira a documentacao oficial da Anthropic antes de usar em producao. Para o passo a passo de migracao, veja o guia de migracao.