Claude Opus 4.8 llegó hoy: 1 millón de tokens, Fast Mode 2.5x y el mayor salto matemático que Anthropic ha dado en un ciclo
Claude Opus 4.8 sale el 28 de mayo de 2026 con benchmarks que le parten la madre a GPT-5.5 en código, matemáticas de olimpiada y tareas agénticas. Guía técnica con snippets reales para devs mexicanos.
Anthropic soltó hoy Claude Opus 4.8 y hay cosas que vale la pena ver de cerca. No es un salto de generación completo, es una actualización mayor sobre 4.7, pero en algunos benchmarks los números son tan dispares que merece tu atención. Sobre todo si usas Claude Code, la API de Anthropic, o estás evaluando si cambiar de modelo para tus proyectos.
Disponible ya mismo. Sin lista de espera. Mismo precio. Vamos por partes.
Los benchmarks que importan
No todos los benchmarks dicen algo útil. Estos sí:
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 |
|---|---|---|---|---|
| SWE-bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| SWE-bench Verified | 88.6% | 87.6% | — | 80.6% |
| USAMO 2026 (matemáticas) | 96.7% | 69.3% | — | — |
| Terminal-Bench 2.1 | 74.6% | 66.1% | 78.2%* | 70.3% |
| Online-Mind2Web (browser) | 84% | — | — | — |
| GraphWalks 1M (F1) | 68.1% | 40.3% | 45.4% | — |
*El 78.2% de GPT-5.5 en Terminal-Bench usa su harness propietario de Codex CLI. En el harness público, Opus 4.8 tiene la ventaja.
El dato que más me llama la atención: USAMO 2026, el examen de olimpiada de matemáticas de Estados Unidos. Opus 4.7 sacó 69.3%, Opus 4.8 sacó 96.7%. Casi 28 puntos de diferencia en un ciclo. Eso no es un ajuste fino, es un salto real de capacidad en razonamiento matemático complejo.
En código, SWE-bench Pro mide qué tan bien resuelve el modelo issues reales de GitHub, no tareas simplificadas. Con 69.2% contra 58.6% de GPT-5.5, Opus 4.8 tiene la mejor puntuación registrada públicamente en esa prueba.
Además, según el anuncio oficial de Anthropic, es el único modelo en completar todos los casos del Super-Agent benchmark de principio a fin, y tiene el score más alto en el Legal Agent Benchmark, siendo el primero en romper el 10% all-pass de esa prueba.
Un dato que me parece importante para los que usan Claude Code todos los días: Opus 4.8 es 4 veces menos probable que Opus 4.7 de dejar pasar bugs en código que él mismo escribió. Eso es enorme para flujos agénticos largos.
Los cambios técnicos que afectan tu código hoy
1. Adaptive thinking: migra de budget_tokens
Si venías usando Opus 4.6 o antes con extended thinking, el parámetro budget_tokens ya no es el camino. Anthropic lo deprecó en 4.7 y en 4.8 la forma correcta es thinking: {type: "adaptive"}.
Opus 4.6 (viejo):
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000 # ya no uses esto
},
messages=[{"role": "user", "content": "Optimiza este algoritmo de grafos..."}]
)
Opus 4.8 (correcto):
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=16000,
thinking={"type": "adaptive"}, # el modelo decide cuánto pensar según la complejidad
messages=[{"role": "user", "content": "Optimiza este algoritmo de grafos..."}]
)
La diferencia conceptual es importante: con adaptive, el modelo evalúa la dificultad de cada prompt y gasta tokens de razonamiento solo cuando los necesita. Un saludo sencillo no activa el thinking extendido; una demostración matemática sí. Eso reduce costos en flujos mixtos.
2. Mid-conversation system messages: fin del loop costoso
Esta es la novedad que más le va a cambiar la vida a los que construyen agentes con bucles largos. Antes, si querías actualizar las instrucciones del sistema a mitad de una conversación en un loop agéntico, tenías que mandar el system prompt completo de nuevo, rompiendo el prompt cache y pagando por esos tokens otra vez.
Ahora puedes meter un role: "system" dentro del array de messages:
import anthropic
client = anthropic.Anthropic()
# Primera llamada con system prompt inicial
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=8000,
system="Eres un agente de análisis de código. Reporta bugs con severidad.",
messages=[
{"role": "user", "content": "Revisa este PR de 200 archivos..."}
]
)
# Segunda llamada: actualizas instrucciones SIN romper el cache del system prompt original
response_2 = client.messages.create(
model="claude-opus-4-8",
max_tokens=8000,
system="Eres un agente de análisis de código. Reporta bugs con severidad.", # cacheado
messages=[
{"role": "user", "content": "Revisa este PR de 200 archivos..."},
{"role": "assistant", "content": response.content[0].text},
# Instrucción de sistema A MITAD de la conversación:
{"role": "system", "content": "Ahora enfócate solo en vulnerabilidades de seguridad. Ignora code style."},
{"role": "user", "content": "Dame el resumen final de hallazgos críticos."}
]
)
El prompt cache del system prompt original se preserva. Solo pagas los tokens nuevos de la instrucción intermedia. Para loops agénticos de decenas de turnos esto puede traducirse en ahorros reales.
Importante: esto es una feature nueva de 4.8. Si mandas role: "system" dentro del array de mensajes con Opus 4.7, recibes un error 400.
3. Fast Mode
Fast Mode está en research preview. Se activa como un parámetro de request, corre a 2.5x la velocidad y sale a $10 por millón de tokens de entrada y $50 por millón de salida. Anthropic dice que es 3 veces más barato que el fast mode de modelos anteriores.
4. Effort levels
El esfuerzo por defecto en todas las superficies, incluyendo Claude Code, ahora es high. Antes era más conservador. Puedes ajustarlo:
low: respuestas rápidas, menor consumo de rate limithigh: default, buen balance calidad/costoxhigh/max: para tareas críticas sin restricción de costo
5. Minimum cache bajó a 1,024 tokens
El mínimo para que un prompt entre al prompt cache bajó de varios miles de tokens a 1,024. Prompts cortos que antes no se cacheaban ahora sí lo hacen. Si tienes system prompts medianos, revisa si ahora califican para caching.
Dynamic Workflows: cientos de subagentes en paralelo
Está en research preview y es la feature más ambiciosa. Básicamente permite que Claude orqueste decenas o cientos de subagentes corriendo en paralelo dentro de una sola sesión, con estado resumible entre ejecuciones de varios días.
El caso concreto que Anthropic mencionó: No se encontró verificación de este caso de uso específico en fuentes oficiales de Anthropic o en anuncios de Bun sobre Dynamic Workflows.
Si eso te suena interesante en el contexto de la IA agéntica en las empresas, ya habíamos explorado cómo la IA agentiva se volvió la inversión #1 en tech en México para 2026 y cómo el ecosistema de herramientas para agentes está madurando rápido.
Precios en pesos y disponibilidad
| Modo | Entrada | Salida |
|---|---|---|
| Standard | ~$85 MXN/M tokens | ~$425 MXN/M tokens |
| Fast Mode | ~$170 MXN/M tokens | ~$850 MXN/M tokens |
| Batch (-50%) | ~$42 MXN/M tokens | ~$212 MXN/M tokens |
| Con caching (-90%) | desde ~$8.50 MXN/M | — |
Disponible hoy en:
- Claude API (anthropic.com)
- Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Foundry (200k tokens de contexto en esta plataforma, no 1M)
- GitHub Copilot
Cosas que se quedan igual y un par de advertencias
GPQA Diamond bajó marginalmente de 94.2% a 93.6%. En tareas multilingüe con código, Gemini 3.1 Pro y GPT-5.5 todavía tienen ventaja. Y según análisis de Gray Swan sobre robustez ante prompt injection, la tasa de éxito de ataques subió de 6.0% en 4.7 a 9.6% en 4.8. Si tu aplicación procesa inputs no confiables, revisa tu sandboxing antes de migrar.
Anthropic ha ido consolidando su posición en el mercado enterprise de manera notable. Lo que antes era un modelo de IA relativamente de nicho, hoy tiene presencia en el 40% del mercado enterprise de LLMs, desplazando a OpenAI en un par de años. Opus 4.8 es el argumento técnico que sostiene esa posición.
La neta
Si ya usas Opus 4.7 en producción, la migración es prácticamente sin fricción. Sin breaking changes en la API, solo actualizar el model ID. Si aún estás en 4.6 o antes, sí hay pasos adicionales, en particular la migración de extended thinking.
Para desarrollo en México, el acceso vía API de Anthropic directa o Amazon Bedrock (que varios ya tienen contratado para otros servicios) es la ruta más directa. Claude Code en su tier de pago también recibe Opus 4.8 por defecto desde hoy.
Una chimba el salto en matemáticas y el benchmark legal, la verdad. Eso abre casos de uso que antes dependían de modelos especializados.
¿Ya migraste de 4.7 a 4.8? ¿Notaste diferencia en code review o en tareas largas de agentes? Suelta tu experiencia abajo.
Fuentes
- Anthropic: Introducing Claude Opus 4.8
- Anthropic API Docs: Migration Guide
- Anthropic API Docs: Adaptive Thinking
- Digital Applied: Claude Opus 4.8 Release, Dynamic Workflows 2026
- TechCrunch: Anthropic releases Opus 4.8 with new dynamic workflow tool
- VentureBeat: Claude Opus 4.8 is here with 3X cheaper fast mode
- GitHub Changelog: Claude Opus 4.8 available for GitHub Copilot
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Google ya es el cloud de todos: OpenAI, Meta y Anthropic son rivales pero los tres dependen de Google para existir
Google invirtió $40B en Anthropic, OpenAI ya puede correr en Google Cloud y Meta firmó un deal de $10B con Google. La ironía más grande del boom de IA: los rivales de Google viven en sus servidores.
Tu IA negoció por ti sin avisarte — y si usabas el modelo 'tonto', te clocharon sin que te dieras cuenta
Anthropic armó un mercado secreto donde sus IAs compraron y vendieron cosas reales con dinero real. El resultado más inquietante: los usuarios del modelo más lento perdieron lana sin notarlo.
El CEO de Y Combinator publicó gratis su setup de IA: así conviertes Claude Code en un equipo de 23 especialistas con gstack
Garry Tan open-sourceó el stack exacto con el que escribe 10,000 líneas de código a la semana mientras dirige YC. Se llama gstack, tiene MIT license, y se instala en 30 segundos. Aquí te explico cómo funciona y si vale la pena para founders mexicanos.