Tabla de contenidos
- 1. Resumen del lanzamiento — fecha, disponibilidad y ficha técnica
- 2. Qué hay de nuevo — 5 mejoras clave
- 3. Benchmarks — comparativa directa con Claude y Gemini
- 4. GPT-5.5 vs GPT-5.5 Pro — ¿cuál elegir?
- 5. Precios — por qué la subida x2
- 6. Disponibilidad por plan de ChatGPT
- 7. Especificaciones de la API y funciones para desarrolladores
- 8. Integración con Codex y la estrategia Super-app
- 9. GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
- 10. La pega — cuidado con el exceso de confianza
- 11. Cuándo elegir GPT-5.5 — por caso de uso
- Preguntas frecuentes
El 23 de abril de 2026, OpenAI lanzó "ChatGPT 5.5 (GPT-5.5)". Presentado por la propia OpenAI como "una nueva clase de inteligencia para el trabajo real y los agentes de IA", el modelo obtuvo un 82.7% en Terminal-Bench 2.0, dejando muy atrás a Claude Opus 4.7 de Anthropic (69.4%) y a Gemini 3.1 Pro de Google (68.5%) y recuperando el SOTA (estado del arte) en 14 benchmarks.
Al mismo tiempo, el precio de lista de la API se ha duplicado respecto a GPT-5.4 ($5/$30 por MTok), y Claude Opus 4.7 sigue superándolo en SWE-Bench Pro. La lectura honesta es "el más fuerte, pero no el mejor en todo". También se ha documentado una tendencia a responder con seguridad sobre cosas que en realidad no sabe, algo a vigilar en sanidad, derecho o trabajos regulados.
Basándonos en el anuncio oficial de OpenAI, los OpenAI Developer Docs y varios informes independientes de benchmarks, este artículo cubre todo lo importante: novedades, benchmarks, precios, disponibilidad por plan, cómo se compara con Claude y Gemini y cómo elegir el modelo adecuado para cada caso.
1. Resumen del lanzamiento — fecha, disponibilidad y ficha técnica
| Apartado | Detalle |
|---|---|
| Nombre oficial | GPT-5.5 (aparece como "ChatGPT 5.5" en ChatGPT) |
| Fecha de lanzamiento | 23 de abril de 2026 |
| Desarrollado por | OpenAI |
| Variantes | GPT-5.5 (estándar) / GPT-5.5 Pro (razonamiento profundo) |
| Ventana de contexto | API: 1,050,000 tokens (~1M) / Codex: 400K tokens |
| Salida máxima | 128,000 tokens |
| Corte de conocimiento | 1 de diciembre de 2025 |
| Precio API (estándar) | $5 / 1M tokens (entrada) / $0.50 (entrada cacheada) / $30 (salida) |
| Precio API (Pro) | $30 (entrada) / $180 (salida) |
| Recargo prompt largo | Por encima de 272K tokens: entrada x2, salida x1.5 |
| Modalidades | Texto entrada/salida, imagen entrada (sin audio ni vídeo) |
| Planes ChatGPT | Plus / Pro / Business / Enterprise (no en Free) |
| Funciones clave | Function calling, salidas estructuradas, streaming, control de esfuerzo de razonamiento, Computer Use, soporte MCP |
2. Qué hay de nuevo — 5 mejoras clave
1. Reentrenamiento completo del modelo base (el primero desde GPT-4.5)
GPT-5.5 es el primer reentrenamiento completo del modelo base desde GPT-4.5. GPT-5, 5.1, 5.2 y 5.4 eran variantes ajustadas a partir de la misma base subyacente, pero GPT-5.5 se ha reconstruido desde cero. El resultado: mejoras simultáneas en eficiencia de razonamiento y conocimiento actualizado.
2. Gran mejora en eficiencia de tokens (~40% menos)
GPT-5.5 mantiene la misma latencia por token que GPT-5.4 mientras reduce los tokens de salida necesarios para completar tareas en Codex en torno a un 40%. El precio de lista se ha duplicado, pero como el volumen de salida cae un 40%, OpenAI afirma que el coste total para el mismo trabajo suele crecer menos de lo que cabría esperar.
Greg Brockman, cofundador de OpenAI, lo resume así:
"Es un modelo que piensa más rápido y con más nitidez usando menos tokens — un modelo de esa clase, comparado con algo como 5.4."
3. Ventana de contexto de ~1M (API)
La versión API se amplía a 1,050,000 tokens (~1M). La integración con Codex es de 400K. ~1M tokens equivale a unas 1.400 páginas de texto en A4. Pero atención al recargo por consumo: los prompts por encima de 272K tokens cuestan el doble en entrada y x1.5 en salida, así que las cargas de contexto muy largo necesitan un cálculo previo de costes.
4. Control de esfuerzo de razonamiento en 5 niveles
La API expone el parámetro reasoning.effort con cinco ajustes:
- none: sin razonamiento (lo más rápido y barato)
- low: razonamiento ligero
- medium: por defecto (equilibrado)
- high: razonamiento profundo (tareas complejas)
- xhigh: razonamiento máximo (lo más lento y caro, máxima precisión)
Es un mecanismo análogo a output_config.effort de Claude Opus 4.7, y todo el sector está convergiendo hacia "que sea quien llama el que ajuste la profundidad del razonamiento".
5. Expert-SWE al 73.1% — capaz de tareas de 20 horas
En la nueva evaluación interna de OpenAI, Expert-SWE (tareas de programación extremadamente complejas con un tiempo humano medio de 20 horas), GPT-5.5 alcanza un 73.1% — 5,6 puntos por encima del 68.5% de GPT-5.4. Es un salto muy importante para la fiabilidad de los agentes autónomos de programación de larga ejecución.
3. Benchmarks — comparativa directa con Claude y Gemini
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | Ganador |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% | 🥇 GPT-5.5 |
| GDPval (trabajo de conocimiento en 44 profesiones) | 84.9% | — | — | 🥇 GPT-5.5 |
| OSWorld-Verified (automatización de PC) | 78.7% | 78.0% | — | 🥇 GPT-5.5 (por poco) |
| BrowseComp | 84.4% (Pro: 90.1%) | — | — | 🥇 GPT-5.5 Pro |
| FrontierMath Tier 4 | 35.4% (Pro: 39.6%) | 22.9% | 16.7% | 🥇 GPT-5.5 |
| SWE-Bench Pro | 58.6% | 64.3% | — | 🥇 Claude Opus 4.7 |
| Tau2-bench Telecom (atención al cliente) | 98.0% | — | — | 🥇 GPT-5.5 |
| GPQA Diamond | 93.6% | — | — | 🥇 GPT-5.5 |
| Expert-SWE (interno de OpenAI) | 73.1% | — | — | 🥇 GPT-5.5 |
Conclusión: GPT-5.5 lidera 14 benchmarks, Claude 4 y Gemini 2
En el conjunto de benchmarks publicados por OpenAI, GPT-5.5 mantiene SOTA en 14 benchmarks, Claude Opus 4.7 en 4 y Gemini 3.1 Pro en 2. La ventaja general es claramente para GPT-5.5.
Dicho esto, en SWE-Bench Pro (tareas de programación de nivel producción), Claude Opus 4.7 sigue ganando con un 64.3% frente al 58.6% de GPT-5.5. Para trabajo de programación, sigue mereciendo la pena repartir tareas entre modelos.
Verificación independiente: la evaluación de revisión de código de CodeRabbit
El servicio independiente de revisión de código CodeRabbit reporta las siguientes mejoras de GPT-5.5:
- Benchmark curado: detección esperada de incidencias 58.3% → 79.2%, precisión 27.9% → 40.6%
- Conjunto del mundo real: detección de incidencias 55.0% → 65.0%, precisión 11.6% → 13.2%
La interpretación de CodeRabbit: "el modelo prefiere cambios locales, conserva el comportamiento y tiende a centrarse en los puntos reales de fallo". Traducido: en lugar de reescribir grandes bloques, propone correcciones precisas y dirigidas.
4. GPT-5.5 vs GPT-5.5 Pro — ¿cuál elegir?
| Apartado | GPT-5.5 (estándar) | GPT-5.5 Pro |
|---|---|---|
| Precio API (entrada) | $5 / 1M tokens | $30 / 1M tokens (x6) |
| Precio API (salida) | $30 / 1M tokens | $180 / 1M tokens (x6) |
| BrowseComp | 84.4% | 90.1% |
| FrontierMath Tier 4 | 35.4% | 39.6% |
| Planes ChatGPT | Plus / Pro / Business / Enterprise | Solo Pro / Business / Enterprise |
| Mejor para | Tareas del día a día, programación, agentes | Investigación científica, matemáticas complejas, razonamiento profundo |
Cómo elegir
- Elige GPT-5.5 estándar: programación general, redacción, cargas de agentes, uso con conciencia de coste
- Elige GPT-5.5 Pro: investigación matemática y científica, redacción de papers, decisiones complejas — precisión por encima del coste
5. Precios — por qué la subida x2
Precios de la API (GPT-5.5 estándar)
| Apartado | Precio | Notas |
|---|---|---|
| Entrada | $5.00 / 1M tokens | x2 GPT-5.4 |
| Entrada cacheada | $0.50 / 1M tokens | 1/10 de la entrada normal |
| Salida | $30.00 / 1M tokens | x2 GPT-5.4 |
| Prompts largos (>272K tokens) | Entrada x2, salida x1.5 | Aplicado a toda la sesión |
| Batch API / Flex | 50% de descuento | Para cargas asíncronas |
| Procesamiento Priority | x2.5 | Para requisitos de baja latencia |
| Procesamiento regional (residencia de datos) | +10% | Para casos de cumplimiento |
¿Por qué la subida x2?
OpenAI no ha explicado directamente la subida, pero las causas probables son:
- Coste de un reentrenamiento completo del modelo base — la primera reconstrucción desde cero desde GPT-4.5
- Trasladar al precio las mejoras de rendimiento — saltos significativos en Terminal-Bench y otros
- La eficiencia en tokens compensa parte del impacto — un 40% menos de tokens de salida amortigua el mayor precio unitario
En cargas con mucho volumen de salida, el incremento real de coste se queda alrededor de "x2 × 0.6 = x1.2". Pero en tareas con mucha entrada (resúmenes, análisis), te comes el x2 íntegro — tenlo presente.
6. Disponibilidad por plan de ChatGPT
| Plan | Mensual | GPT-5.5 | GPT-5.5 Pro | Codex |
|---|---|---|---|---|
| Free | $0 | ❌ No | ❌ No | ❌ No |
| Plus | $20/mes | ✅ Sí | ❌ No | ✅ Sí |
| Pro | $200/mes | ✅ Sí | ✅ Sí | ✅ Sí (incluye Fast Mode) |
| Business | Por uso | ✅ Sí | ✅ Sí | ✅ Sí |
| Enterprise | A medida | ✅ Sí | ✅ Sí | ✅ Sí |
Los usuarios Free se quedan en GPT-5 (o 5.4)
GPT-5.5 no está disponible en el plan Free — los usuarios gratuitos siguen con GPT-5 (o 5.4). Plus ($20/mes) es el punto de entrada.
7. Especificaciones de la API y funciones para desarrolladores
Funciones soportadas
- ✅ Function calling
- ✅ Salidas estructuradas (JSON Schema)
- ✅ Streaming
- ✅ Control de esfuerzo de razonamiento (none/low/medium/high/xhigh)
- ✅ Herramientas: búsqueda web, búsqueda de archivos, generación de imágenes, Code Interpreter, Hosted Shell, Apply Patch, Skills, Computer Use, MCP, Tool Search
- ✅ Destilación (a modelos más pequeños)
- ❌ Fine-tuning: no soportado en el lanzamiento
- ❌ Audio o vídeo de entrada/salida: no soportado
Límites de tasa (Tier 5: el más alto)
- RPM (peticiones por minuto): 15,000
- TPM (tokens por minuto): 40,000,000
- Límite de cola Batch: 15,000,000,000
Ejemplo de esfuerzo de razonamiento (Python)
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "high"}, # none/low/medium/high/xhigh
input="Resuelve este problema matemático complejo paso a paso..."
)
print(response.output_text)
8. Integración con Codex y la estrategia Super-app
Codex Fast Mode
Junto al lanzamiento de GPT-5.5, Codex incorpora un Fast Mode:
- x1.5 más rápido en procesamiento
- x2.5 el coste (en créditos)
- Disponible en los planes Pro / Business / Enterprise
La estrategia Super-app
OpenAI también ha presentado una visión de "Super-app" que combina "ChatGPT + Codex + navegador IA" en una única oferta. La idea es entregarlo como un paquete único para empresas — lo que OpenAI define como "un paso hacia una computación más agéntica e intuitiva".
Conceptualmente, es el patrón "todo-en-uno para maximizar la experiencia de desarrollo" que ya conocemos de PaaS como Vercel o Next.js, llevado al espacio de los agentes de IA.
9. GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
| Apartado | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Lanzamiento | 23 de abril de 2026 | 16 de abril de 2026 | Inicios de 2026 |
| Entrada API | $5/MTok | $5/MTok | No publicado |
| Salida API | $30/MTok | $25/MTok | No publicado |
| Contexto | 1,050K | 1,000K (200K estándar) | 1,000K |
| Corte de conocimiento | 1 de diciembre de 2025 | ~inicios de 2025 | ~inicios de 2025 |
| Benchmarks SOTA | 14 | 4 | 2 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | 68.5% |
| SWE-Bench Pro | 58.6% | 64.3% | — |
| FrontierMath T4 | 35.4% | 22.9% | 16.7% |
| Puntos fuertes | Agentes, tareas largas, manejo de PC | Sesiones largas de programación, seguridad, redacción extensa | Multimodalidad, integración con Google Workspace |
Cómo elegir
- Mejor opción global + rendimiento puntero en agentes → GPT-5.5 (sobre todo si aceptas >$30/MTok de salida)
- Programación autónoma larga y trabajo con foco en seguridad → Claude Opus 4.7 (gana en SWE-Bench Pro y tiene salida más barata)
- Integración con Google Workspace y multimodalidad → Gemini 3.1 Pro
10. La pega — cuidado con el exceso de confianza
El análisis independiente de Handy AI señala una tendencia en GPT-5.5 a "responder con seguridad sobre cosas que en realidad no sabe".
"El modelo sabe más, pero también responde con más seguridad sobre cosas que no sabe."
Casos de uso de alto riesgo
- ⚠️ Diagnóstico médico o prescripciones — la información errónea puede ser letal
- ⚠️ Asesoría legal o búsqueda de jurisprudencia — citar casos alucinados es un problema de ética profesional
- ⚠️ Asesoría financiera o trabajo fiscal — exposición regulatoria
- ⚠️ Citas en redacción académica — hay casos documentados de citar papers inexistentes
Mitigaciones
- Fact-checking obligatorio — nunca uses la salida de la IA tal cual; verifica contra fuentes primarias
- Usa la herramienta de búsqueda web — haz que el modelo busque información en tiempo real
- Contraste con Claude Opus 4.7 — para trabajo crítico en precisión, contrasta respuestas con varios modelos
- Indícale que diga "no lo sé" — instrúyelo en el system prompt: "si no estás seguro, dilo explícitamente"
11. Cuándo elegir GPT-5.5 — por caso de uso
✅ Elige GPT-5.5 cuando
- Agentes autónomos de programación de larga ejecución — Expert-SWE 73.1% es de los mejores del sector
- Automatización de PC / Computer Use — OSWorld 78.7%, a la altura de Opus 4.7
- Automatización de soporte al cliente — Tau2-bench 98.0% es prácticamente perfecto
- Matemáticas avanzadas e investigación científica — FrontierMath T4 35.4% (muy por encima del 22.9% de Opus 4.7)
- Estás comprometido con el ecosistema OpenAI — se integra con ChatGPT, Codex y Operator
❌ Evita GPT-5.5 cuando
- Programación a nivel de SWE-Bench Pro en producción — Claude Opus 4.7 sigue liderando
- Trabajo crítico en precisión (médico, legal, financiero) — atento a las alucinaciones
- El coste es la prioridad máxima — $30/MTok de salida está en la franja alta
- Quieres una opción gratuita — no está disponible en el plan Free
- Procesamiento de audio o vídeo — solo entrada de texto e imagen
Preguntas frecuentes
P1. ¿Cuándo estuvo disponible GPT-5.5 en ChatGPT?
El 23 de abril de 2026 (hora de EE. UU.), en los planes Plus, Pro, Business y Enterprise. GPT-5.5 Pro se limita a Pro, Business y Enterprise.
P2. ¿Puedo usar GPT-5.5 en el plan Free?
No. El plan Free se mantiene en GPT-5 (o 5.4). Para acceder a GPT-5.5 necesitas como mínimo el plan Plus de $20/mes.
P3. GPT-5.5 vs Claude Opus 4.7 — ¿cuál es mejor?
En conjunto, GPT-5.5 (SOTA en 14 benchmarks frente a los 4 de Claude). Pero en SWE-Bench Pro, Claude Opus 4.7 gana 64.3% frente a 58.6% — así que para programación de nivel producción, Claude tiene la ventaja. Claude también es más barato en salida ($25/MTok frente a los $30/MTok de GPT-5.5).
P4. La API se ha encarecido — ¿cómo controlo los costes?
Sí, $5/$30 por MTok es x2 GPT-5.4. Pero el consumo de tokens de salida cae cerca de un 40%, así que en cargas con mucha salida el incremento real ronda x1.2. Trucos para controlar el coste:
1. Usa Batch API / Flex (50% de descuento)
2. Usa entrada cacheada ($0.50/MTok, 1/10 de la normal)
3. Usa reasoning.effort=low para tareas ligeras
4. Evita prompts por encima de 272K tokens
P5. ¿En qué se diferencia realmente GPT-5.5 Pro?
Tiene un razonamiento más potente, con saltos notables en matemáticas complejas (FrontierMath: 35.4% → 39.6%) y tareas de investigación científica. La pega es el precio — x6 la tarifa de la API ($30 entrada / $180 salida). Fuera de investigación y redacción seria de papers, la relación precio/rendimiento no suele compensar.
P6. ¿Se puede hacer fine-tuning?
A abril de 2026, no. La destilación (entrenar modelos más pequeños a partir de las salidas) sí está soportada, así que puedes usar las salidas de GPT-5.5 para entrenar algo como GPT-5 nano.
P7. ¿Algo a tener en cuenta al usar el contexto de 1M?
Los prompts por encima de 272K tokens activan un recargo de x2 en entrada y x1.5 en salida durante toda la sesión. Si vas a diseñar una API pensada en uso de 1M tokens, calcula los costes por adelantado.
P8. ¿Cuál es el corte de conocimiento de GPT-5.5?
1 de diciembre de 2025. Lo posterior (enero de 2026 en adelante) no está en los datos de entrenamiento, así que la herramienta de búsqueda web se vuelve prácticamente imprescindible para información actual.
P9. ¿Han mejorado las alucinaciones?
Análisis independientes dicen que "la base de conocimiento ha crecido, pero también la confianza del modelo al hablar de cosas que no sabe". OpenAI proclama mejoras de seguridad oficialmente, pero para trabajo médico, legal o financiero el fact-checking sigue siendo obligatorio.
P10. ¿Mi app actual con GPT-5 funcionará tal cual?
La compatibilidad de la API se mantiene — basta con cambiar el ID del modelo de gpt-5 a gpt-5.5 para migrar. Aun así, aprovechar las nuevas funciones (como el parámetro reasoning.effort o el ID de la variante Pro) merece una revisión del diseño.
Conclusión: GPT-5.5 es el más fuerte, pero no el mejor en todo
GPT-5.5 mantiene SOTA en 14 benchmarks y se aleja con claridad de Claude Opus 4.7 y Gemini 3.1 Pro para recuperar la cima del sector. Brilla especialmente en tareas de agente, automatización de PC, programación autónoma de larga duración y matemáticas e investigación científica.
Al mismo tiempo, sigue perdiendo frente a Claude Opus 4.7 en SWE-Bench Pro, muestra una tendencia a la "alucinación con seguridad" y llega con una subida x2 en el precio de la API — así que no es una victoria incondicional.
La jugada inteligente es "elegir el modelo adecuado — GPT-5.5, Claude Opus 4.7 o Gemini 3.1 Pro — para cada tarea". ¿A tope con el ecosistema OpenAI? GPT-5.5. ¿Sesiones largas de programación y trabajo con foco en seguridad? Claude. ¿Integración con Google Workspace? Gemini. La operación multimodelo se está convirtiendo en el estándar de 2026.
Artículos relacionados
- Claude Opus 4.7: análisis completo del lanzamiento — todo el detalle sobre el competidor directo
- Guía de migración a Claude Opus 4.7 — del 4.6 al 4.7
- Comparativa de precios Claude vs ChatGPT — cómo se enfrentan las estructuras de planes
- ¿Qué es Next.js? — el framework de React que la IA siempre recomienda