Tabla de contenidos
- 1. Resumen del lanzamiento — cuándo, qué, precio y dónde
- 2. Resumen de novedades
- 3. Soporte de imágenes en alta resolución — primer modelo Claude
- 4. Niveles de esfuerzo — llega xhigh
- 5. Task budgets (beta)
- 6. Impacto del nuevo tokenizador
- 7. Cambios de comportamiento — qué varía respecto a 4.6
- 8. Breaking changes
- 9. Benchmarks
- 10. Comparativa con Opus 4.6 / 4.5 / 4.1
- 11. Cuándo merece la pena usarlo
- 12. Novedades en Claude Code: /ultrareview y plan Max ampliado
- Preguntas frecuentes
El 16 de abril de 2026, Anthropic lanzó oficialmente su modelo insignia Claude Opus 4.7. ID de modelo claude-opus-4-7; el precio se mantiene en $5 / $25 per MTok, idéntico al de 4.6. Pero por dentro, el modelo está plagado de cambios que reescriben en gran medida la experiencia con un modelo frontera: soporte de imágenes en alta resolución, nuevo nivel de esfuerzo xhigh, task budgets (beta) y nuevo tokenizador.
A la vez, hay breaking changes que obligan a migrar el código existente: se retira la API de extended thinking, se eliminan parámetros de muestreo como temperature, top_p y top_k, y desaparece el prefill.
En este artículo desglosamos qué hay de nuevo en 4.7, qué cambia respecto a 4.6 y cuándo conviene usarlo, todo desde el punto de vista de quien programa.
1. Resumen del lanzamiento — cuándo, qué, precio y dónde
| Apartado | Detalle |
|---|---|
| Fecha de lanzamiento | 16 de abril de 2026 |
| ID de modelo | claude-opus-4-7 |
| Precio (entrada) | $5 por millón de tokens (idéntico a 4.6) |
| Precio (salida) | $25 por millón de tokens (idéntico a 4.6) |
| Ventana de contexto | 1.000.000 de tokens (tarifa estándar de la API, sin recargo por contexto largo) |
| Salida máxima | 128.000 tokens |
| Plataformas | claude.ai, Anthropic API, AWS Bedrock, Google Vertex AI, Microsoft Foundry |
Lo más llamativo es que «1M de contexto a tarifa estándar, sin tocar el precio». En modelos anteriores se cobraba un extra al pasar de cierto tamaño (por ejemplo de 200K en adelante), pero 4.7 trabaja con 1M de tokens dentro de la tarifa habitual.
Opus 4.7 está disponible para usuarios de pago en la web y la app móvil de claude.ai, y mediante la API basta con cambiar el ID del modelo. Llega también a la vez a AWS Bedrock, Google Vertex AI y Microsoft Foundry, así que se puede usar tal cual en entornos multinube empresariales.
2. Resumen de novedades
Estas son las funciones añadidas o modificadas en Opus 4.7.
- Soporte de imágenes en alta resolución (primero en Claude): hasta 2576px / 3,75 megapíxeles (alrededor de 3 veces los 1568px / 1,15MP anteriores)
- Mejor percepción de bajo nivel: pointing, medición, conteo y detección de bounding boxes más precisos
- Nuevo nivel de esfuerzo xhigh: punto medio entre high y max. Ideal para casos de uso de programación y agentes
- Task budgets (beta): nueva función para estimar de antemano los tokens del bucle completo de un agente
- Nuevo tokenizador: usa entre 1,0 y 1,35 veces más tokens (hasta un 35% más, según el contenido)
- Adaptive thinking: ahora desactivado por defecto (hay que activarlo explícitamente)
- Mejor memoria basada en sistema de archivos: scratchpads y notas mejor aprovechados entre sesiones
- Mejoras en trabajo intelectual (.docx, .pptx): edición con control de cambios, layouts de diapositivas, mejor análisis de gráficos y figuras
- Integración con Claude Code: nuevo slash command
/ultrareview; el plan Max sube su effort por defecto a xhigh y Auto mode se amplía a usuarios Max - Salvaguardas de ciberseguridad en tiempo real: nuevo comportamiento de rechazo en temas de alto riesgo
- Cambios de comportamiento: más fiel a las instrucciones, tono más directo, menos llamadas a herramientas
Sobre todo el soporte de imágenes en alta resolución y el nivel xhigh son cambios con valor práctico real para análisis documental, Computer Use y agentes de programación. Vamos por partes.
3. Soporte de imágenes en alta resolución — primer modelo Claude
Opus 4.7 es el primer modelo de la familia Claude que admite imágenes de alta resolución directamente.
Cambios de resolución
| Apartado | Hasta Opus 4.6 | Opus 4.7 |
|---|---|---|
| Resolución máxima (lado largo) | 1568px | 2576px |
| Píxeles máximos | 1,15 megapíxeles | 3,75 megapíxeles |
| Tokens por imagen a resolución completa | ~1.600 tokens | ~4.784 tokens (~3 veces) |
| Escala de coordenadas | Coordenadas en píxeles tras reescalado | 1:1 con los píxeles reales (sin conversión) |
Por qué importa
- Análisis documental: en escaneados A4 se leen con nitidez letra pequeña, líneas de tablas y marcas de gráficos
- Computer Use: capturas de pantalla full HD o superiores se entienden tal cual
- Comprensión de capturas de UI: capturas a 4K o de pantallas de alta densidad se analizan sin downsampling
- Coordenadas 1:1: si haces que el modelo devuelva, por ejemplo, coordenadas de clic, te ahorras la lógica de conversión y el código queda mucho más limpio
Eso sí, hay que tener en cuenta que una sola imagen a resolución completa consume unos 4.784 tokens. En agentes que intercambian muchas capturas de pantalla, los tokens de imagen se disparan y se nota en la factura. Si te vale baja resolución, conviene hacer un resize previo.
4. Niveles de esfuerzo — llega xhigh
El «nivel de esfuerzo (effort level)» que controla la profundidad de pensamiento (extended thinking) en Claude estrena un nuevo valor: xhigh.
Cómo usar los 5 niveles
| Nivel | Características | Casos donde encaja |
|---|---|---|
| low | Pensamiento mínimo. Prioriza la respuesta inmediata | Preguntas cortas, clasificación, resúmenes simples, respuestas de chat |
| medium | Razonamiento intermedio | Q&A habitual, extracción de información, generación ligera |
| high | Razonamiento profundo | Decisiones de diseño, análisis complejos, generación de texto largo |
| xhigh (nuevo) | Punto medio entre high y max. Optimizado para programación y agentes | Implementación de código, agentes multistep, refactorizaciones |
| max | Profundidad máxima de pensamiento | Razonamiento más exigente, análisis a nivel de investigación |
Hasta 4.6 había un hueco: «high se queda corto, pero no necesito llegar a max», y en programación o agentes se notaba. xhigh nace justamente para llenar ese hueco y Anthropic lo señala como óptimo para programación y agentes.
Trucos para elegir el nivel
En 4.7 se ha endurecido la calibración del esfuerzo; sobre todo low y medium tienden a «ceñirse al alcance». Si una tarea que iba bien en medium ahora «se queda corta», sube a high o a xhigh.
5. Task budgets (beta)
Opus 4.7 introduce una nueva función beta llamada task budgets. Sirve para indicar de antemano una estimación aproximada del consumo de tokens de todo el bucle del agente.
Cómo son los task budgets
- Cabecera beta:
task-budgets-2026-03-13 - Mínimo: 20.000 tokens
- Alcance: el bucle entero del agente, incluyendo pensamiento, llamadas a herramientas y salidas
- Comportamiento: tope orientativo (advisory), no un tope duro: si se supera, no se corta por la fuerza
Por qué hace falta
Hasta ahora max_tokens solo controlaba el tope de tokens de una respuesta concreta. Pero en una ejecución real de agente se entrelazan tokens de pensamiento, idas y vueltas con herramientas y salidas en varios pasos, y costaba mucho prever «cuántos tokens se gastan en toda la tarea».
Indicando un task budget, el modelo planifica el trabajo tomándolo como referencia y avanza con la profundidad y velocidad que considera adecuadas. Sirve para indicarle, en términos de coste, cosas como «no profundices mucho, termina pronto» o «al revés, piénsatelo bien».
Como es advisory, si quieres parar sí o sí cuando se supere el presupuesto, tendrás que añadir un contador propio en tu aplicación.
6. Impacto del nuevo tokenizador
Opus 4.7 estrena un tokenizador nuevo y, comparado con los modelos anteriores, consume entre 1,0 y 1,35 veces más tokens para un mismo texto. Según el contenido, el incremento puede llegar al 35%.
Impacto en coste y presupuesto de contexto
- Aunque el prompt sea idéntico, la factura puede subir: si el precio no cambia pero suben los tokens, el total sube
- Cabe menos información en 1M de contexto: 1M sigue siendo 1M, pero el mismo documento ocupa más tokens que antes
- Hay que recalibrar estimaciones y alertas: si el presupuesto y los rate limits estaban pensados con los conteos antiguos, hay que rehacer cuentas
Qué hacer en producción
Antes de cambiar tu app de Claude a 4.7, repasa estos puntos.
- Previsión de coste mensual: cuenta con hasta un 35% más para el mismo tráfico
- Uso de la ventana de contexto: si en los logs históricos rozabas el 1M, especial cuidado
- Rate limits y tokens por minuto: revisa el margen frente al TPM de tu organización
- Estrategia de caché: el ratio de aciertos del prompt caching puede variar
Los pasos de migración de 4.6 a 4.7 los detallamos en el artículo de la guía de migración.
7. Cambios de comportamiento — qué varía respecto a 4.6
Opus 4.7 no solo añade funciones: su estilo de respuesta también cambia respecto a 4.6.
Principales cambios de comportamiento
- Más fiel a las instrucciones: sobre todo en niveles de esfuerzo bajo o medio, ejecuta lo pedido sin añadir aclaraciones de más
- Tono más directo: bajan las validation phrases («qué buena pregunta», etc.), las cortesías excesivas y los emojis
- La longitud de respuesta se adapta a la tarea: corta si la pregunta es simple, larga si es compleja; se acaba la verbosidad uniforme
- Por defecto, menos llamadas a herramientas: si puede resolverlo razonando, lo resuelve sin tirar de tools
- Menos lanzamientos de subagentes: en vez de paralelizar trabajo, primero piensa por sí mismo
- Calibración de effort más estricta: en low y medium se ciñe al alcance y evita interpretaciones expansivas
Impacto en prompts existentes
Los prompts diseñados en 4.6 contando con que «añade matices con educación», o los agentes que esperaban «que use muchas herramientas para verificar», pueden cambiar de comportamiento en 4.7.
- Si quieres aclaraciones, indica «explica también el porqué y alternativas»
- Si quieres más uso de herramientas, di algo concreto como «usa siempre WebSearch para verificar los hechos»
- Si quieres respuestas largas, indícalo expresamente: «mínimo 500 caracteres»
En conjunto, el modelo evoluciona hacia «no hacer más de lo pedido», así que el comportamiento se vuelve más predecible: si lo pides claro, lo hace tal cual.
Salvaguardas de ciberseguridad y seguridad
Opus 4.7 introduce nuevas salvaguardas de ciberseguridad en tiempo real: incluso en tareas de seguridad legítimas (pentesting, investigación de vulnerabilidades, red teaming...), puede haber rechazos según el contexto. Si vas a usarlo en producción para seguridad, considera solicitar acceso al programa de verificación cyber de Anthropic.
En el lado positivo, las mejoras de seguridad oficiales incluyen:
- Más honestidad: tendencia más marcada a decir «no lo sé» y a evitar afirmaciones sin base
- Mayor resistencia a prompt injection: defensa reforzada frente a inyecciones de instrucciones de terceros maliciosos
- Mythos Preview es ahora la mejor en alineamiento: Opus 4.7 tiene capacidades más amplias, pero en precisión de alineamiento Mythos Preview va por delante
En sentido contrario, se reporta cierta verbosidad en consejos de reducción de daños sobre sustancias controladas (lo confirma la propia empresa). Para chatbots farmacéuticos o sanitarios, conviene añadir un filtro de salida.
8. Breaking changes
Opus 4.7 incluye varios breaking changes respecto a 4.6. Si tu código estaba escrito para 4.6, en algunos casos te devolverá un error 400 si no migras.
Parámetros y funciones retirados
| Función | Comportamiento hasta 4.6 | Comportamiento en 4.7 |
|---|---|---|
| Extended thinking | Pensamiento extendido con thinking: {type: "enabled", budget_tokens: N} | Mismo payload da error 400. Hay que migrar a adaptive thinking |
| Adaptive thinking | Activado por defecto | Desactivado por defecto. Activación explícita con thinking: {type: "adaptive"} |
| Mostrar contenido del thinking | Devuelto por defecto | Omitido por defecto. Para verlo, hay que indicar display: "summarized" |
| temperature | Ajustable entre 0,0 y 1,0 | Cualquier valor distinto al por defecto da error 400 |
| top_p / top_k | Control de muestreo | Cualquier valor distinto al por defecto da error 400 |
| Prefill del assistant | Mensaje assistant al final del array para forzar la continuación | Error 400 (heredado de 4.6) |
Qué hay que ajustar
- Código que usa extended thinking: cambia
thinking.typea"adaptive"y, si hace falta, añadedisplay - Código que ajusta temperature y similares: elimina esos parámetros. Si necesitas determinismo, fuérzalo desde el prompt
- Código que usa prefill del assistant: integra esa parte en el mensaje del usuario o sustitúyelo con instrucciones de formato de salida
- UI que muestra el thinking: ojo, sin
display: "summarized"el contenido del thinking no llega
Para el detalle del proceso de migración, consulta la guía de migración.
9. Benchmarks
En el momento del anuncio, las cifras concretas se publican parcialmente, pero Anthropic confirma mejoras importantes en programación, agentes y tareas de visión.
Áreas con mejora confirmada
Benchmarks anunciados oficialmente
Estas son las cifras principales que comparte el anuncio oficial de Anthropic.
| Benchmark | Opus 4.6 | Opus 4.7 | Área |
|---|---|---|---|
| CursorBench | 58% | 70% | Programación |
| CursorBench (precisión visual) | 54,5% | 98,5% | Comprensión de capturas de UI |
| Rakuten-SWE-Bench | Referencia | 3 veces más tareas resueltas | Cambios de código en producción |
| CyberGym | 73,8 | — (no hay datos públicos) | Seguridad |
| Finance Agent | — | state-of-the-art | Agentes financieros |
| GDPval-AA | — | top-tier | Trabajo intelectual de alto valor económico |
Mejoras reportadas por terceros y usuarios
- Benchmark de programación con 93 tareas: aproximadamente un 13% más que Opus 4.6
- OfficeQA Pro (razonamiento sobre documentos): alrededor de un 21% menos de errores
- Factory Droids (tareas reales de producción): tasa de éxito mejor en 10-15%
Apuntes para la evaluación práctica
Lo anterior son benchmarks oficiales y de partners. Aun así, la evaluación más fiable es medir con tu propia carga de trabajo. Como con el nuevo tokenizador el conteo de tokens cambia para el mismo texto, hay que hacer benchmark previo de coste y latencia.
Las claves para evaluar:
- Lanza la misma entrada a 4.6 y a 4.7 y compara calidad de salida, tiempo y consumo de tokens
- Para tareas de programación, mide objetivamente «funcionó al primer intento» y «pasaron los tests»
- Para agentes, mide tanto la «tasa de finalización» como el «número de llamadas a herramientas» (4.7 hace menos llamadas, así que si la finalización sube, es una mejora pura)
- Para visión, compara con casos reales en alta resolución (capturas de UI, escaneados de documentos)
Encaje con Mythos Preview
En el anuncio, Anthropic señala que el modelo no público «Mythos Preview» es actualmente el de mayor precisión de alineamiento y menor tasa de mal funcionamiento. Opus 4.7 ofrece capacidades más amplias, pero en capacidades cyber Mythos Preview no llega tan lejos (la estrategia es probar las defensas en modelos más capaces antes de desplegar de forma escalonada). El modelo insignia que cualquier persona usuaria puede usar hoy es Opus 4.7.
10. Comparativa con Opus 4.6 / 4.5 / 4.1
| Apartado | Opus 4.1 | Opus 4.5 | Opus 4.6 | Opus 4.7 |
|---|---|---|---|---|
| Precio (entrada) | $15 | $5 | $5 | $5 |
| Precio (salida) | $75 | $25 | $25 | $25 |
| Contexto máximo | 200K | 200K | 1M | 1M |
| Salida máxima | 32K | 64K | 128K | 128K |
| Resolución máxima de imagen | 1568px | 1568px | 1568px | 2576px |
| Niveles de esfuerzo | low/medium/high | low/medium/high/max | low/medium/high/max | low/medium/high/xhigh/max |
| Extended thinking | Sí | Sí | Adaptive thinking | Adaptive thinking (off por defecto) |
| Task budgets | No | No | No | Sí (beta) |
| temperature y demás | Disponible | Disponible | Disponible | Retirado |
| Prefill | Disponible | Disponible | Retirado | Retirado |
| Tokenizador | Anterior | Anterior | Anterior | Nuevo (1,0-1,35x) |
Las cifras se basan en la información oficial del 16 de abril de 2026. La gran clave del salto 4.6 → 4.7 es que se mantiene el precio mientras se refuerzan las capacidades.
11. Cuándo merece la pena usarlo
Opus 4.7 es el modelo insignia, pero usarlo para todo no siempre es lo óptimo.
Casos donde Opus 4.7 es la mejor opción
- Tareas de programación complejas: refactorizaciones grandes, decisiones de diseño, cambios en varios archivos
- Bucles de agente largos: automatización multistep, en combinación con task budgets
- Tareas de visión con imágenes en alta resolución: Computer Use, análisis de capturas de UI, OCR documental
- Procesamiento de contexto largo de 1M de tokens: comprender bases de código grandes, analizar documentos largos
- Razonamiento más exigente: matemáticas, análisis a nivel de investigación, planificación estratégica
Cuándo conviene plantear Sonnet
- Q&A rutinario, clasificación, extracción de información
- Procesamiento por lotes a gran escala donde se quiere coste contenido y «suficiente inteligencia»
- Experiencias en tiempo real donde quieres que la latencia sea aún menor
Cuándo conviene plantear Haiku
- Clasificación, traducción o filtrado simples a gran escala con coste mínimo
- IoT, edge..., donde la rapidez de respuesta manda
En la práctica, lo más rentable suele ser combinar: la parte que ve la persona usuaria (generación de código, razonamientos complejos, núcleo del agente) con Opus 4.7 y el procesado masivo de fondo (clasificación de logs, extracción de datos, filtrado primario) con Sonnet o Haiku.
12. Novedades en Claude Code: /ultrareview
Claude Code (la CLI oficial de Anthropic) también se actualiza junto a Opus 4.7 y estrena un nuevo slash command: /ultrareview.
Qué ofrece /ultrareview
- Ejecuta una review del código modificado con la profundidad equivalente a xhigh
- Revisión más a fondo que la habitual: cubre reusabilidad, manejo de errores, trampas de concurrencia y riesgos de seguridad
- No solo señala errores de implementación, sino también «decisiones de diseño poco recomendables»
Si /review equivale a una «PR review», /ultrareview está al nivel de una review de diseño hecha por una persona ingeniera senior. Encaja antes y después de añadir grandes funcionalidades, o como check final antes de un release.
Como /ultrareview usa pensamiento al nivel xhigh, consume más tiempo y tokens que una review normal. Para PRs ligeras del día a día tira de /review; para los hitos importantes, /ultrareview.
Subida del effort por defecto en el plan Max
Quienes usan el plan Max de Claude Code ven cómo el effort por defecto al usar Opus 4.7 sube a xhigh. Las tareas del día a día, que antes iban con high, pasan a ejecutarse automáticamente con razonamiento más profundo. Obtienes resultados de mejor calidad dentro del cupo de tokens, pero el consumo sube, así que conviene monitorizar.
Auto mode ampliado a usuarios Max
El Auto mode, hasta ahora limitado a algunos planes, se amplía a las personas usuarias de Claude Code Max. Es la función que cambia automáticamente entre Opus, Sonnet y Haiku según la tarea, optimizando coste y velocidad a la vez.
Preguntas frecuentes
P. ¿Una app que va con Opus 4.6 puede pasar tal cual a 4.7?
Muchas apps siguen funcionando solo con cambiar el ID del modelo, pero hay que tocar código si se da alguno de estos casos: (1) usas extended thinking con thinking: {type: "enabled"}; (2) tienes temperature, top_p o top_k con valores distintos al por defecto; (3) usas prefill del assistant; (4) muestras el contenido del thinking en la UI. En todos esos casos verás errores 400 o cambios de comportamiento. La guía de migración los detalla.
P. ¿De verdad sube el coste con el nuevo tokenizador?
Para un mismo texto consume entre 1,0 y 1,35 veces más tokens, así que en el peor caso el coste sube alrededor de un 35%. Pero 4.7 también tiende a «llamar menos a herramientas por defecto» y «responder de forma más concisa», así que el balance final depende de cada app. En apps con mucho tráfico, lo recomendable es mantener 4.6 y 4.7 en paralelo un tiempo y medir la factura mensual real antes del cambio en producción.
P. ¿Cómo elijo entre xhigh y max?
Anthropic señala que xhigh está optimizado para programación y agentes. max está pensado para «el razonamiento más exigente». Para implementación, refactor, añadir tests o planificación multistep de un agente, xhigh es el sweet spot de coste-eficiencia. Para problemas matemáticamente difíciles, análisis de investigación o planificación estratégica, mejor max. Si dudas, empieza por xhigh y sube a max si se queda corto.
P. ¿Por qué los task budgets no son un tope duro?
El bucle de un agente, con sus idas y vueltas a herramientas, hace que el consumo de tokens crezca o decrezca de forma impredecible. Un tope duro provocaría cortes a punto de terminar la tarea, así que Anthropic lo diseñó como orientativo. El modelo planifica teniendo en cuenta el presupuesto, pero puede excederlo si hace falta. Si quieres parar sí o sí, implementa un contador en tu app.
P. ¿El soporte de imágenes en alta resolución se activa solo?
Basta con indicar el ID del modelo de 4.7: las imágenes que envíes se procesan manteniendo la resolución hasta 2576px. No hace falta opt-in. Eso sí, como cada imagen a resolución completa consume unos 4.784 tokens, los agentes que mandan muchas imágenes pueden ver cómo se dispara el coste. Si no necesitas resolución alta, redúcela antes.
P. Sin temperature, ¿no se puede tener determinismo?
En 4.7, cualquier valor distinto al por defecto en temperature, top_p o top_k da error 400. Si quieres determinismo, fuérzalo desde el prompt especificando el formato de salida con detalle (por ejemplo: «devuelve siempre JSON ajustado estrictamente al esquema siguiente»). Combinado con salida estructurada tipo response_format, ganas aún más estabilidad práctica.
P. ¿Por qué no se ve el contenido del thinking por defecto?
En 4.7, el contenido del thinking llega omitido por defecto. Para verlo hay que indicar display: "summarized". Es un cambio de criterio: «el thinking forma parte del proceso interno del modelo y la respuesta final es el resultado principal para la persona usuaria». Si quieres seguir mostrando «está pensando» con fines de depuración o cara al usuario, añade explícitamente summarized.
P. ¿En qué se diferencia /ultrareview de /review en Claude Code?
/review equivale a una review de PR habitual: calidad del código, bugs y estilo. /ultrareview, con profundidad equivalente a xhigh, se mete en problemas de diseño, trampas de concurrencia, riesgos de seguridad, reusabilidad y calidad del manejo de errores. Tarda y consume más tokens, pero es muy útil para el último check antes de un merge importante. Para el día a día, /review; para los hitos, /ultrareview.
P. ¿Cuánto mejora en los benchmarks?
Según Anthropic y sus partners, las cifras destacadas son: CursorBench: 58% → 70% (programación); CursorBench precisión visual: 54,5% → 98,5% (capturas de UI); Rakuten-SWE-Bench: 3 veces más tareas resueltas en producción. A esto se suman, según informes de terceros, mejoras del 13% en un benchmark de programación con 93 tareas, un 21% menos de errores en OfficeQA Pro y un 10-15% más de éxito en Factory Droids. En Finance Agent y GDPval-AA está calificado como state-of-the-art / top-tier.
P. ¿Qué es Mythos Preview? ¿Es más fuerte que Opus 4.7?
Mythos Preview es un modelo no público dentro de Anthropic. La empresa indica que «Mythos Preview es ahora mismo el de mayor precisión de alineamiento y menor tasa de mal funcionamiento», pero se trata de un lanzamiento por fases con capacidades cyber deliberadamente contenidas; en capacidades generales, Opus 4.7 es el modelo más fuerte de disponibilidad general. En partes del benchmark Mythos podría superar a 4.7, pero su distribución es limitada: la estrategia es desplegar por etapas, según se confirme la seguridad.
P. En seguridad (pentesting, etc.) me lo rechaza, ¿qué hago?
4.7 introduce salvaguardas de ciberseguridad en tiempo real: incluso en trabajos legítimos como pentesting, investigación de vulnerabilidades o red teaming, puede haber rechazos según contexto. Si quieres seguir con un caso de uso de seguridad en producción, solicita acceso al programa de verificación cyber (Cyber Verification Program) de Anthropic. Una vez aprobado, podrás usarlo con restricciones más laxas.
P. ¿Dónde encuentro las puntuaciones detalladas de los benchmarks de 4.7?
El anuncio publica cifras parciales y Anthropic destaca mejoras importantes en programación, agentes y tareas de visión. Para benchmarks estándar como SWE-bench, lo recomendable es esperar las publicaciones del blog oficial de Anthropic, la model card y las evaluaciones de terceros. Aun así, lo más fiable es medir con tu propia carga, así que recomendamos encarecidamente comparativas A/B antes de pasar a producción.
Este artículo se basa en la información oficial del 16 de abril de 2026. Las especificaciones, precios y disponibilidad pueden cambiar, así que antes de pasar a producción consulta la documentación oficial de Anthropic. El paso a paso para migrar lo encuentras en la guía de migración.