Claude Opus 4.7: imágenes en alta resolución, esfuerzo xhigh y task budgets

Q: P. ¿Una app que va con Opus 4.6 puede pasar tal cual a 4.7?

Muchas apps siguen funcionando solo con cambiar el ID del modelo, pero hay que tocar código si se da alguno de estos casos: (1) usas extended thinking con thinking: {type: &quot;enabled&quot;}; (2) tienes temperature, top_p o top_k con valores distintos al por defecto; (3) usas prefill del assistant; (4) muestras el contenido del thinking en la UI. En todos esos casos verás errores 400 o cambios de comportamiento. La guía de migración los detalla.

Q: P. ¿Cómo elijo entre xhigh y max?

Anthropic señala que xhigh está optimizado para programación y agentes. max está pensado para «el razonamiento más exigente». Para implementación, refactor, añadir tests o planificación multistep de un agente, xhigh es el sweet spot de coste-eficiencia. Para problemas matemáticamente difíciles, análisis de investigación o planificación estratégica, mejor max. Si dudas, empieza por xhigh y sube a max si se queda corto.

Q: P. Sin temperature, ¿no se puede tener determinismo?

En 4.7, cualquier valor distinto al por defecto en temperature, top_p o top_k da error 400. Si quieres determinismo, fuérzalo desde el prompt especificando el formato de salida con detalle (por ejemplo: «devuelve siempre JSON ajustado estrictamente al esquema siguiente»). Combinado con salida estructurada tipo response_format, ganas aún más estabilidad práctica.

Q: P. ¿Por qué no se ve el contenido del thinking por defecto?

En 4.7, el contenido del thinking llega omitido por defecto. Para verlo hay que indicar display: &quot;summarized&quot;. Es un cambio de criterio: «el thinking forma parte del proceso interno del modelo y la respuesta final es el resultado principal para la persona usuaria». Si quieres seguir mostrando «está pensando» con fines de depuración o cara al usuario, añade explícitamente summarized.

Q: P. ¿En qué se diferencia /ultrareview de /review en Claude Code?

/review equivale a una review de PR habitual: calidad del código, bugs y estilo. /ultrareview, con profundidad equivalente a xhigh, se mete en problemas de diseño, trampas de concurrencia, riesgos de seguridad, reusabilidad y calidad del manejo de errores. Tarda y consume más tokens, pero es muy útil para el último check antes de un merge importante. Para el día a día, /review; para los hitos, /ultrareview.

Q: P. ¿Cuánto mejora en los benchmarks?

Según Anthropic y sus partners, las cifras destacadas son: CursorBench: 58% → 70% (programación); CursorBench precisión visual: 54,5% → 98,5% (capturas de UI); Rakuten-SWE-Bench: 3 veces más tareas resueltas en producción. A esto se suman, según informes de terceros, mejoras del 13% en un benchmark de programación con 93 tareas, un 21% menos de errores en OfficeQA Pro y un 10-15% más de éxito en Factory Droids. En Finance Agent y GDPval-AA está calificado como state-of-the-art / top-tier.

Llega Claude Opus 4.7: análisis a fondo de novedades, benchmarks y precios

Tabla de contenidos

1. Resumen del lanzamiento — cuándo, qué, precio y dónde
2. Resumen de novedades
3. Soporte de imágenes en alta resolución — primer modelo Claude
4. Niveles de esfuerzo — llega xhigh
5. Task budgets (beta)
6. Impacto del nuevo tokenizador
7. Cambios de comportamiento — qué varía respecto a 4.6
8. Breaking changes
9. Benchmarks
10. Comparativa con Opus 4.6 / 4.5 / 4.1
11. Cuándo merece la pena usarlo
12. Novedades en Claude Code: /ultrareview y plan Max ampliado
Preguntas frecuentes

El 16 de abril de 2026, Anthropic lanzó oficialmente su modelo insignia Claude Opus 4.7. ID de modelo claude-opus-4-7; el precio se mantiene en $5 / $25 per MTok, idéntico al de 4.6. Pero por dentro, el modelo está plagado de cambios que reescriben en gran medida la experiencia con un modelo frontera: soporte de imágenes en alta resolución, nuevo nivel de esfuerzo xhigh, task budgets (beta) y nuevo tokenizador.

A la vez, hay breaking changes que obligan a migrar el código existente: se retira la API de extended thinking, se eliminan parámetros de muestreo como temperature, top_p y top_k, y desaparece el prefill.

En este artículo desglosamos qué hay de nuevo en 4.7, qué cambia respecto a 4.6 y cuándo conviene usarlo, todo desde el punto de vista de quien programa.

Lanzamiento de Claude Opus 4.7: lista de novedades

1. Resumen del lanzamiento — cuándo, qué, precio y dónde

Apartado	Detalle
Fecha de lanzamiento	16 de abril de 2026
ID de modelo	`claude-opus-4-7`
Precio (entrada)	$5 por millón de tokens (idéntico a 4.6)
Precio (salida)	$25 por millón de tokens (idéntico a 4.6)
Ventana de contexto	1.000.000 de tokens (tarifa estándar de la API, sin recargo por contexto largo)
Salida máxima	128.000 tokens
Plataformas	claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry

Lo más llamativo es que «1M de contexto a tarifa estándar, sin tocar el precio». En modelos anteriores se cobraba un extra al pasar de cierto tamaño (por ejemplo de 200K en adelante), pero 4.7 trabaja con 1M de tokens dentro de la tarifa habitual.

Opus 4.7 está disponible para usuarios de pago en la web y la app móvil de claude.ai, y mediante la API basta con cambiar el ID del modelo. Llega también a la vez a AWS Bedrock, Google Vertex AI y Microsoft Foundry, así que se puede usar tal cual en entornos multinube empresariales.

2. Resumen de novedades

Estas son las funciones añadidas o modificadas en Opus 4.7.

Novedades de Opus 4.7: alta resolución, xhigh, task budgets y nuevo tokenizador

Soporte de imágenes en alta resolución (primero en Claude): hasta 2576px / 3,75 megapíxeles (alrededor de 3 veces los 1568px / 1,15MP anteriores)
Mejor percepción de bajo nivel: pointing, medición, conteo y detección de bounding boxes más precisos
Nuevo nivel de esfuerzo xhigh: punto medio entre high y max. Ideal para casos de uso de programación y agentes
Task budgets (beta): nueva función para estimar de antemano los tokens del bucle completo de un agente
Nuevo tokenizador: usa entre 1,0 y 1,35 veces más tokens (hasta un 35% más, según el contenido)
Adaptive thinking: ahora desactivado por defecto (hay que activarlo explícitamente)
Mejor memoria basada en sistema de archivos: scratchpads y notas mejor aprovechados entre sesiones
Mejoras en trabajo intelectual (.docx, .pptx): edición con control de cambios, layouts de diapositivas, mejor análisis de gráficos y figuras
Integración con Claude Code: nuevo slash command /ultrareview; el plan Max sube su effort por defecto a xhigh y Auto mode se amplía a usuarios Max
Salvaguardas de ciberseguridad en tiempo real: nuevo comportamiento de rechazo en temas de alto riesgo
Cambios de comportamiento: más fiel a las instrucciones, tono más directo, menos llamadas a herramientas

Sobre todo el soporte de imágenes en alta resolución y el nivel xhigh son cambios con valor práctico real para análisis documental, Computer Use y agentes de programación. Vamos por partes.

3. Soporte de imágenes en alta resolución — primer modelo Claude

Opus 4.7 es el primer modelo de la familia Claude que admite imágenes de alta resolución directamente.

Cambios de resolución

Apartado	Hasta Opus 4.6	Opus 4.7
Resolución máxima (lado largo)	1568px	2576px
Píxeles máximos	1,15 megapíxeles	3,75 megapíxeles
Tokens por imagen a resolución completa	~1.600 tokens	~4.784 tokens (~3 veces)
Escala de coordenadas	Coordenadas en píxeles tras reescalado	1:1 con los píxeles reales (sin conversión)

Por qué importa

Análisis documental: en escaneados A4 se leen con nitidez letra pequeña, líneas de tablas y marcas de gráficos
Computer Use: capturas de pantalla full HD o superiores se entienden tal cual
Comprensión de capturas de UI: capturas a 4K o de pantallas de alta densidad se analizan sin downsampling
Coordenadas 1:1: si haces que el modelo devuelva, por ejemplo, coordenadas de clic, te ahorras la lógica de conversión y el código queda mucho más limpio

Eso sí, hay que tener en cuenta que una sola imagen a resolución completa consume unos 4.784 tokens. En agentes que intercambian muchas capturas de pantalla, los tokens de imagen se disparan y se nota en la factura. Si te vale baja resolución, conviene hacer un resize previo.

4. Niveles de esfuerzo — llega xhigh

El «nivel de esfuerzo (effort level)» que controla la profundidad de pensamiento (extended thinking) en Claude estrena un nuevo valor: xhigh.

Niveles de esfuerzo: low, medium, high, xhigh, max

Cómo usar los 5 niveles

Nivel	Características	Casos donde encaja
low	Pensamiento mínimo. Prioriza la respuesta inmediata	Preguntas cortas, clasificación, resúmenes simples, respuestas de chat
medium	Razonamiento intermedio	Q&A habitual, extracción de información, generación ligera
high	Razonamiento profundo	Decisiones de diseño, análisis complejos, generación de texto largo
xhigh (nuevo)	Punto medio entre high y max. Optimizado para programación y agentes	Implementación de código, agentes multistep, refactorizaciones
max	Profundidad máxima de pensamiento	Razonamiento más exigente, análisis a nivel de investigación

Hasta 4.6 había un hueco: «high se queda corto, pero no necesito llegar a max», y en programación o agentes se notaba. xhigh nace justamente para llenar ese hueco y Anthropic lo señala como óptimo para programación y agentes.

Trucos para elegir el nivel

En 4.7 se ha endurecido la calibración del esfuerzo; sobre todo low y medium tienden a «ceñirse al alcance». Si una tarea que iba bien en medium ahora «se queda corta», sube a high o a xhigh.

5. Task budgets (beta)

Opus 4.7 introduce una nueva función beta llamada task budgets. Sirve para indicar de antemano una estimación aproximada del consumo de tokens de todo el bucle del agente.

Cómo son los task budgets

Cabecera beta: task-budgets-2026-03-13
Mínimo: 20.000 tokens
Alcance: el bucle entero del agente, incluyendo pensamiento, llamadas a herramientas y salidas
Comportamiento: tope orientativo (advisory), no un tope duro: si se supera, no se corta por la fuerza

Por qué hace falta

Hasta ahora max_tokens solo controlaba el tope de tokens de una respuesta concreta. Pero en una ejecución real de agente se entrelazan tokens de pensamiento, idas y vueltas con herramientas y salidas en varios pasos, y costaba mucho prever «cuántos tokens se gastan en toda la tarea».

Indicando un task budget, el modelo planifica el trabajo tomándolo como referencia y avanza con la profundidad y velocidad que considera adecuadas. Sirve para indicarle, en términos de coste, cosas como «no profundices mucho, termina pronto» o «al revés, piénsatelo bien».

Como es advisory, si quieres parar sí o sí cuando se supere el presupuesto, tendrás que añadir un contador propio en tu aplicación.

6. Impacto del nuevo tokenizador

Opus 4.7 estrena un tokenizador nuevo y, comparado con los modelos anteriores, consume entre 1,0 y 1,35 veces más tokens para un mismo texto. Según el contenido, el incremento puede llegar al 35%.

Impacto en coste y presupuesto de contexto

Aunque el prompt sea idéntico, la factura puede subir: si el precio no cambia pero suben los tokens, el total sube
Cabe menos información en 1M de contexto: 1M sigue siendo 1M, pero el mismo documento ocupa más tokens que antes
Hay que recalibrar estimaciones y alertas: si el presupuesto y los rate limits estaban pensados con los conteos antiguos, hay que rehacer cuentas

Qué hacer en producción

Antes de cambiar tu app de Claude a 4.7, repasa estos puntos.

Previsión de coste mensual: cuenta con hasta un 35% más para el mismo tráfico
Uso de la ventana de contexto: si en los logs históricos rozabas el 1M, especial cuidado
Rate limits y tokens por minuto: revisa el margen frente al TPM de tu organización
Estrategia de caché: el ratio de aciertos del prompt caching puede variar

Los pasos de migración de 4.6 a 4.7 los detallamos en el artículo de la guía de migración.

7. Cambios de comportamiento — qué varía respecto a 4.6

Opus 4.7 no solo añade funciones: su estilo de respuesta también cambia respecto a 4.6.

Principales cambios de comportamiento

Más fiel a las instrucciones: sobre todo en niveles de esfuerzo bajo o medio, ejecuta lo pedido sin añadir aclaraciones de más
Tono más directo: bajan las validation phrases («qué buena pregunta», etc.), las cortesías excesivas y los emojis
La longitud de respuesta se adapta a la tarea: corta si la pregunta es simple, larga si es compleja; se acaba la verbosidad uniforme
Por defecto, menos llamadas a herramientas: si puede resolverlo razonando, lo resuelve sin tirar de tools
Menos lanzamientos de subagentes: en vez de paralelizar trabajo, primero piensa por sí mismo
Calibración de effort más estricta: en low y medium se ciñe al alcance y evita interpretaciones expansivas

Impacto en prompts existentes

Los prompts diseñados en 4.6 contando con que «añade matices con educación», o los agentes que esperaban «que use muchas herramientas para verificar», pueden cambiar de comportamiento en 4.7.

Si quieres aclaraciones, indica «explica también el porqué y alternativas»
Si quieres más uso de herramientas, di algo concreto como «usa siempre WebSearch para verificar los hechos»
Si quieres respuestas largas, indícalo expresamente: «mínimo 500 caracteres»

En conjunto, el modelo evoluciona hacia «no hacer más de lo pedido», así que el comportamiento se vuelve más predecible: si lo pides claro, lo hace tal cual.

Salvaguardas de ciberseguridad y seguridad

Opus 4.7 introduce nuevas salvaguardas de ciberseguridad en tiempo real: incluso en tareas de seguridad legítimas (pentesting, investigación de vulnerabilidades, red teaming...), puede haber rechazos según el contexto. Si vas a usarlo en producción para seguridad, considera solicitar acceso al programa de verificación cyber de Anthropic.

En el lado positivo, las mejoras de seguridad oficiales incluyen:

Más honestidad: tendencia más marcada a decir «no lo sé» y a evitar afirmaciones sin base
Mayor resistencia a prompt injection: defensa reforzada frente a inyecciones de instrucciones de terceros maliciosos
Mythos Preview es ahora la mejor en alineamiento: Opus 4.7 tiene capacidades más amplias, pero en precisión de alineamiento Mythos Preview va por delante

En sentido contrario, se reporta cierta verbosidad en consejos de reducción de daños sobre sustancias controladas (lo confirma la propia empresa). Para chatbots farmacéuticos o sanitarios, conviene añadir un filtro de salida.

8. Breaking changes

Opus 4.7 incluye varios breaking changes respecto a 4.6. Si tu código estaba escrito para 4.6, en algunos casos te devolverá un error 400 si no migras.

Parámetros y funciones retirados

Función	Comportamiento hasta 4.6	Comportamiento en 4.7
Extended thinking	Pensamiento extendido con `thinking: {type: "enabled", budget_tokens: N}`	Mismo payload da error 400. Hay que migrar a adaptive thinking
Adaptive thinking	Activado por defecto	Desactivado por defecto. Activación explícita con `thinking: {type: "adaptive"}`
Mostrar contenido del thinking	Devuelto por defecto	Omitido por defecto. Para verlo, hay que indicar `display: "summarized"`
temperature	Ajustable entre 0,0 y 1,0	Cualquier valor distinto al por defecto da error 400
top_p / top_k	Control de muestreo	Cualquier valor distinto al por defecto da error 400
Prefill del assistant	Mensaje assistant al final del array para forzar la continuación	Error 400 (heredado de 4.6)

Qué hay que ajustar

Código que usa extended thinking: cambia thinking.type a "adaptive" y, si hace falta, añade display
Código que ajusta temperature y similares: elimina esos parámetros. Si necesitas determinismo, fuérzalo desde el prompt
Código que usa prefill del assistant: integra esa parte en el mensaje del usuario o sustitúyelo con instrucciones de formato de salida
UI que muestra el thinking: ojo, sin display: "summarized" el contenido del thinking no llega

Para el detalle del proceso de migración, consulta la guía de migración.

9. Benchmarks

En el momento del anuncio, las cifras concretas se publican parcialmente, pero Anthropic confirma mejoras importantes en programación, agentes y tareas de visión.

Áreas con mejora confirmada

Benchmarks anunciados oficialmente

Estas son las cifras principales que comparte el anuncio oficial de Anthropic.

Benchmark	Opus 4.6	Opus 4.7	Área
CursorBench	58%	70%	Programación
CursorBench (precisión visual)	54,5%	98,5%	Comprensión de capturas de UI
Rakuten-SWE-Bench	Referencia	3 veces más tareas resueltas	Cambios de código en producción
CyberGym	73,8	— (no hay datos públicos)	Seguridad
Finance Agent	—	state-of-the-art	Agentes financieros
GDPval-AA	—	top-tier	Trabajo intelectual de alto valor económico

Mejoras reportadas por terceros y usuarios

Benchmark de programación con 93 tareas: aproximadamente un 13% más que Opus 4.6
OfficeQA Pro (razonamiento sobre documentos): alrededor de un 21% menos de errores
Factory Droids (tareas reales de producción): tasa de éxito mejor en 10-15%

Apuntes para la evaluación práctica

Lo anterior son benchmarks oficiales y de partners. Aun así, la evaluación más fiable es medir con tu propia carga de trabajo. Como con el nuevo tokenizador el conteo de tokens cambia para el mismo texto, hay que hacer benchmark previo de coste y latencia.

Las claves para evaluar:

Lanza la misma entrada a 4.6 y a 4.7 y compara calidad de salida, tiempo y consumo de tokens
Para tareas de programación, mide objetivamente «funcionó al primer intento» y «pasaron los tests»
Para agentes, mide tanto la «tasa de finalización» como el «número de llamadas a herramientas» (4.7 hace menos llamadas, así que si la finalización sube, es una mejora pura)
Para visión, compara con casos reales en alta resolución (capturas de UI, escaneados de documentos)

Encaje con Mythos Preview

En el anuncio, Anthropic señala que el modelo no público «Mythos Preview» es actualmente el de mayor precisión de alineamiento y menor tasa de mal funcionamiento. Opus 4.7 ofrece capacidades más amplias, pero en capacidades cyber Mythos Preview no llega tan lejos (la estrategia es probar las defensas en modelos más capaces antes de desplegar de forma escalonada). El modelo insignia que cualquier persona usuaria puede usar hoy es Opus 4.7.

10. Comparativa con Opus 4.6 / 4.5 / 4.1

Apartado	Opus 4.1	Opus 4.5	Opus 4.6	Opus 4.7
Precio (entrada)	$15	$5	$5	$5
Precio (salida)	$75	$25	$25	$25
Contexto máximo	200K	200K	1M	1M
Salida máxima	32K	64K	128K	128K
Resolución máxima de imagen	1568px	1568px	1568px	2576px
Niveles de esfuerzo	low/medium/high	low/medium/high/max	low/medium/high/max	low/medium/high/xhigh/max
Extended thinking	Sí	Sí	Adaptive thinking	Adaptive thinking (off por defecto)
Task budgets	No	No	No	Sí (beta)
temperature y demás	Disponible	Disponible	Disponible	Retirado
Prefill	Disponible	Disponible	Retirado	Retirado
Tokenizador	Anterior	Anterior	Anterior	Nuevo (1,0-1,35x)

Las cifras se basan en la información oficial del 16 de abril de 2026. La gran clave del salto 4.6 → 4.7 es que se mantiene el precio mientras se refuerzan las capacidades.

11. Cuándo merece la pena usarlo

Opus 4.7 es el modelo insignia, pero usarlo para todo no siempre es lo óptimo.

Casos donde Opus 4.7 es la mejor opción

Tareas de programación complejas: refactorizaciones grandes, decisiones de diseño, cambios en varios archivos
Bucles de agente largos: automatización multistep, en combinación con task budgets
Tareas de visión con imágenes en alta resolución: Computer Use, análisis de capturas de UI, OCR documental
Procesamiento de contexto largo de 1M de tokens: comprender bases de código grandes, analizar documentos largos
Razonamiento más exigente: matemáticas, análisis a nivel de investigación, planificación estratégica

Cuándo conviene plantear Sonnet

Q&A rutinario, clasificación, extracción de información
Procesamiento por lotes a gran escala donde se quiere coste contenido y «suficiente inteligencia»
Experiencias en tiempo real donde quieres que la latencia sea aún menor

Cuándo conviene plantear Haiku

Clasificación, traducción o filtrado simples a gran escala con coste mínimo
IoT, edge..., donde la rapidez de respuesta manda

En la práctica, lo más rentable suele ser combinar: la parte que ve la persona usuaria (generación de código, razonamientos complejos, núcleo del agente) con Opus 4.7 y el procesado masivo de fondo (clasificación de logs, extracción de datos, filtrado primario) con Sonnet o Haiku.

12. Novedades en Claude Code: /ultrareview

Claude Code (la CLI oficial de Anthropic) también se actualiza junto a Opus 4.7 y estrena un nuevo slash command: /ultrareview.

Qué ofrece /ultrareview

Ejecuta una review del código modificado con la profundidad equivalente a xhigh
Revisión más a fondo que la habitual: cubre reusabilidad, manejo de errores, trampas de concurrencia y riesgos de seguridad
No solo señala errores de implementación, sino también «decisiones de diseño poco recomendables»

Si /review equivale a una «PR review», /ultrareview está al nivel de una review de diseño hecha por una persona ingeniera senior. Encaja antes y después de añadir grandes funcionalidades, o como check final antes de un release.

Como /ultrareview usa pensamiento al nivel xhigh, consume más tiempo y tokens que una review normal. Para PRs ligeras del día a día tira de /review; para los hitos importantes, /ultrareview.

Subida del effort por defecto en el plan Max

Quienes usan el plan Max de Claude Code ven cómo el effort por defecto al usar Opus 4.7 sube a xhigh. Las tareas del día a día, que antes iban con high, pasan a ejecutarse automáticamente con razonamiento más profundo. Obtienes resultados de mejor calidad dentro del cupo de tokens, pero el consumo sube, así que conviene monitorizar.

Auto mode ampliado a usuarios Max

El Auto mode, hasta ahora limitado a algunos planes, se amplía a las personas usuarias de Claude Code Max. Es la función que cambia automáticamente entre Opus, Sonnet y Haiku según la tarea, optimizando coste y velocidad a la vez.

Preguntas frecuentes

P. ¿Una app que va con Opus 4.6 puede pasar tal cual a 4.7?

Muchas apps siguen funcionando solo con cambiar el ID del modelo, pero hay que tocar código si se da alguno de estos casos: (1) usas extended thinking con thinking: {type: "enabled"}; (2) tienes temperature, top_p o top_k con valores distintos al por defecto; (3) usas prefill del assistant; (4) muestras el contenido del thinking en la UI. En todos esos casos verás errores 400 o cambios de comportamiento. La guía de migración los detalla.

P. ¿De verdad sube el coste con el nuevo tokenizador?

Para un mismo texto consume entre 1,0 y 1,35 veces más tokens, así que en el peor caso el coste sube alrededor de un 35%. Pero 4.7 también tiende a «llamar menos a herramientas por defecto» y «responder de forma más concisa», así que el balance final depende de cada app. En apps con mucho tráfico, lo recomendable es mantener 4.6 y 4.7 en paralelo un tiempo y medir la factura mensual real antes del cambio en producción.

P. ¿Cómo elijo entre xhigh y max?

Anthropic señala que xhigh está optimizado para programación y agentes. max está pensado para «el razonamiento más exigente». Para implementación, refactor, añadir tests o planificación multistep de un agente, xhigh es el sweet spot de coste-eficiencia. Para problemas matemáticamente difíciles, análisis de investigación o planificación estratégica, mejor max. Si dudas, empieza por xhigh y sube a max si se queda corto.

P. ¿Por qué los task budgets no son un tope duro?

El bucle de un agente, con sus idas y vueltas a herramientas, hace que el consumo de tokens crezca o decrezca de forma impredecible. Un tope duro provocaría cortes a punto de terminar la tarea, así que Anthropic lo diseñó como orientativo. El modelo planifica teniendo en cuenta el presupuesto, pero puede excederlo si hace falta. Si quieres parar sí o sí, implementa un contador en tu app.

P. ¿El soporte de imágenes en alta resolución se activa solo?

Basta con indicar el ID del modelo de 4.7: las imágenes que envíes se procesan manteniendo la resolución hasta 2576px. No hace falta opt-in. Eso sí, como cada imagen a resolución completa consume unos 4.784 tokens, los agentes que mandan muchas imágenes pueden ver cómo se dispara el coste. Si no necesitas resolución alta, redúcela antes.

P. Sin temperature, ¿no se puede tener determinismo?

En 4.7, cualquier valor distinto al por defecto en temperature, top_p o top_k da error 400. Si quieres determinismo, fuérzalo desde el prompt especificando el formato de salida con detalle (por ejemplo: «devuelve siempre JSON ajustado estrictamente al esquema siguiente»). Combinado con salida estructurada tipo response_format, ganas aún más estabilidad práctica.

P. ¿Por qué no se ve el contenido del thinking por defecto?

En 4.7, el contenido del thinking llega omitido por defecto. Para verlo hay que indicar display: "summarized". Es un cambio de criterio: «el thinking forma parte del proceso interno del modelo y la respuesta final es el resultado principal para la persona usuaria». Si quieres seguir mostrando «está pensando» con fines de depuración o cara al usuario, añade explícitamente summarized.

P. ¿En qué se diferencia /ultrareview de /review en Claude Code?

/review equivale a una review de PR habitual: calidad del código, bugs y estilo. /ultrareview, con profundidad equivalente a xhigh, se mete en problemas de diseño, trampas de concurrencia, riesgos de seguridad, reusabilidad y calidad del manejo de errores. Tarda y consume más tokens, pero es muy útil para el último check antes de un merge importante. Para el día a día, /review; para los hitos, /ultrareview.

P. ¿Cuánto mejora en los benchmarks?

Según Anthropic y sus partners, las cifras destacadas son: CursorBench: 58% → 70% (programación); CursorBench precisión visual: 54,5% → 98,5% (capturas de UI); Rakuten-SWE-Bench: 3 veces más tareas resueltas en producción. A esto se suman, según informes de terceros, mejoras del 13% en un benchmark de programación con 93 tareas, un 21% menos de errores en OfficeQA Pro y un 10-15% más de éxito en Factory Droids. En Finance Agent y GDPval-AA está calificado como state-of-the-art / top-tier.

P. ¿Qué es Mythos Preview? ¿Es más fuerte que Opus 4.7?

Mythos Preview es un modelo no público dentro de Anthropic. La empresa indica que «Mythos Preview es ahora mismo el de mayor precisión de alineamiento y menor tasa de mal funcionamiento», pero se trata de un lanzamiento por fases con capacidades cyber deliberadamente contenidas; en capacidades generales, Opus 4.7 es el modelo más fuerte de disponibilidad general. En partes del benchmark Mythos podría superar a 4.7, pero su distribución es limitada: la estrategia es desplegar por etapas, según se confirme la seguridad.

P. En seguridad (pentesting, etc.) me lo rechaza, ¿qué hago?

4.7 introduce salvaguardas de ciberseguridad en tiempo real: incluso en trabajos legítimos como pentesting, investigación de vulnerabilidades o red teaming, puede haber rechazos según contexto. Si quieres seguir con un caso de uso de seguridad en producción, solicita acceso al programa de verificación cyber (Cyber Verification Program) de Anthropic. Una vez aprobado, podrás usarlo con restricciones más laxas.

P. ¿Dónde encuentro las puntuaciones detalladas de los benchmarks de 4.7?

El anuncio publica cifras parciales y Anthropic destaca mejoras importantes en programación, agentes y tareas de visión. Para benchmarks estándar como SWE-bench, lo recomendable es esperar las publicaciones del blog oficial de Anthropic, la model card y las evaluaciones de terceros. Aun así, lo más fiable es medir con tu propia carga, así que recomendamos encarecidamente comparativas A/B antes de pasar a producción.

Este artículo se basa en la información oficial del 16 de abril de 2026. Las especificaciones, precios y disponibilidad pueden cambiar, así que antes de pasar a producción consulta la documentación oficial de Anthropic. El paso a paso para migrar lo encuentras en la guía de migración.

Llega Claude Opus 4.7: análisis a fondo de novedades, benchmarks y precios