tech 28 de mayo de 2026 · 7 min de lectura (actualizado)

Claude Opus 4.8 llegó hoy: 1 millón de tokens, Fast Mode 2.5x y el mayor salto matemático que Anthropic ha dado en un ciclo

Claude Opus 4.8 sale el 28 de mayo de 2026 con benchmarks que le parten la madre a GPT-5.5 en código, matemáticas de olimpiada y tareas agénticas. Guía técnica con snippets reales para devs mexicanos.

Al Chile Team

Al Chile Tech

Claude Opus 4.8 llegó hoy: 1 millón de tokens, Fast Mode 2.5x y el mayor salto matemático que Anthropic ha dado en un ciclo

Anthropic soltó hoy Claude Opus 4.8 y hay cosas que vale la pena ver de cerca. No es un salto de generación completo, es una actualización mayor sobre 4.7, pero en algunos benchmarks los números son tan dispares que merece tu atención. Sobre todo si usas Claude Code, la API de Anthropic, o estás evaluando si cambiar de modelo para tus proyectos.

Disponible ya mismo. Sin lista de espera. Mismo precio. Vamos por partes.

Los benchmarks que importan

No todos los benchmarks dicen algo útil. Estos sí:

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1
SWE-bench Pro	69.2%	64.3%	58.6%	54.2%
SWE-bench Verified	88.6%	87.6%	—	80.6%
USAMO 2026 (matemáticas)	96.7%	69.3%	—	—
Terminal-Bench 2.1	74.6%	66.1%	78.2%*	70.3%
Online-Mind2Web (browser)	84%	—	—	—
GraphWalks 1M (F1)	68.1%	40.3%	45.4%	—

*El 78.2% de GPT-5.5 en Terminal-Bench usa su harness propietario de Codex CLI. En el harness público, Opus 4.8 tiene la ventaja.

El dato que más me llama la atención: USAMO 2026, el examen de olimpiada de matemáticas de Estados Unidos. Opus 4.7 sacó 69.3%, Opus 4.8 sacó 96.7%. Casi 28 puntos de diferencia en un ciclo. Eso no es un ajuste fino, es un salto real de capacidad en razonamiento matemático complejo.

En código, SWE-bench Pro mide qué tan bien resuelve el modelo issues reales de GitHub, no tareas simplificadas. Con 69.2% contra 58.6% de GPT-5.5, Opus 4.8 tiene la mejor puntuación registrada públicamente en esa prueba.

Además, según el anuncio oficial de Anthropic, es el único modelo en completar todos los casos del Super-Agent benchmark de principio a fin, y tiene el score más alto en el Legal Agent Benchmark, siendo el primero en romper el 10% all-pass de esa prueba.

Un dato que me parece importante para los que usan Claude Code todos los días: Opus 4.8 es 4 veces menos probable que Opus 4.7 de dejar pasar bugs en código que él mismo escribió. Eso es enorme para flujos agénticos largos.

Los cambios técnicos que afectan tu código hoy

1. Adaptive thinking: migra de budget_tokens

Si venías usando Opus 4.6 o antes con extended thinking, el parámetro budget_tokens ya no es el camino. Anthropic lo deprecó en 4.7 y en 4.8 la forma correcta es thinking: {type: "adaptive"}.

Opus 4.6 (viejo):

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # ya no uses esto
    },
    messages=[{"role": "user", "content": "Optimiza este algoritmo de grafos..."}]
)

Opus 4.8 (correcto):

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},  # el modelo decide cuánto pensar según la complejidad
    messages=[{"role": "user", "content": "Optimiza este algoritmo de grafos..."}]
)

La diferencia conceptual es importante: con adaptive, el modelo evalúa la dificultad de cada prompt y gasta tokens de razonamiento solo cuando los necesita. Un saludo sencillo no activa el thinking extendido; una demostración matemática sí. Eso reduce costos en flujos mixtos.

2. Mid-conversation system messages: fin del loop costoso

Esta es la novedad que más le va a cambiar la vida a los que construyen agentes con bucles largos. Antes, si querías actualizar las instrucciones del sistema a mitad de una conversación en un loop agéntico, tenías que mandar el system prompt completo de nuevo, rompiendo el prompt cache y pagando por esos tokens otra vez.

Ahora puedes meter un role: "system" dentro del array de messages:

import anthropic

client = anthropic.Anthropic()

# Primera llamada con system prompt inicial
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=8000,
    system="Eres un agente de análisis de código. Reporta bugs con severidad.",
    messages=[
        {"role": "user", "content": "Revisa este PR de 200 archivos..."}
    ]
)

# Segunda llamada: actualizas instrucciones SIN romper el cache del system prompt original
response_2 = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=8000,
    system="Eres un agente de análisis de código. Reporta bugs con severidad.",  # cacheado
    messages=[
        {"role": "user", "content": "Revisa este PR de 200 archivos..."},
        {"role": "assistant", "content": response.content[0].text},
        # Instrucción de sistema A MITAD de la conversación:
        {"role": "system", "content": "Ahora enfócate solo en vulnerabilidades de seguridad. Ignora code style."},
        {"role": "user", "content": "Dame el resumen final de hallazgos críticos."}
    ]
)

El prompt cache del system prompt original se preserva. Solo pagas los tokens nuevos de la instrucción intermedia. Para loops agénticos de decenas de turnos esto puede traducirse en ahorros reales.

Importante: esto es una feature nueva de 4.8. Si mandas role: "system" dentro del array de mensajes con Opus 4.7, recibes un error 400.

3. Fast Mode

Fast Mode está en research preview. Se activa como un parámetro de request, corre a 2.5x la velocidad y sale a $10 por millón de tokens de entrada y $50 por millón de salida. Anthropic dice que es 3 veces más barato que el fast mode de modelos anteriores.

4. Effort levels

El esfuerzo por defecto en todas las superficies, incluyendo Claude Code, ahora es high. Antes era más conservador. Puedes ajustarlo:

low: respuestas rápidas, menor consumo de rate limit
high: default, buen balance calidad/costo
xhigh / max: para tareas críticas sin restricción de costo

5. Minimum cache bajó a 1,024 tokens

El mínimo para que un prompt entre al prompt cache bajó de varios miles de tokens a 1,024. Prompts cortos que antes no se cacheaban ahora sí lo hacen. Si tienes system prompts medianos, revisa si ahora califican para caching.

Dynamic Workflows: cientos de subagentes en paralelo

Está en research preview y es la feature más ambiciosa. Básicamente permite que Claude orqueste decenas o cientos de subagentes corriendo en paralelo dentro de una sola sesión, con estado resumible entre ejecuciones de varios días.

El caso concreto que Anthropic mencionó: No se encontró verificación de este caso de uso específico en fuentes oficiales de Anthropic o en anuncios de Bun sobre Dynamic Workflows.

Si eso te suena interesante en el contexto de la IA agéntica en las empresas, ya habíamos explorado cómo la IA agentiva se volvió la inversión #1 en tech en México para 2026 y cómo el ecosistema de herramientas para agentes está madurando rápido.

Precios en pesos y disponibilidad

Modo	Entrada	Salida
Standard	~$85 MXN/M tokens	~$425 MXN/M tokens
Fast Mode	~$170 MXN/M tokens	~$850 MXN/M tokens
Batch (-50%)	~$42 MXN/M tokens	~$212 MXN/M tokens
Con caching (-90%)	desde ~$8.50 MXN/M	—

Disponible hoy en:

Claude API (anthropic.com)
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry (200k tokens de contexto en esta plataforma, no 1M)
GitHub Copilot

Cosas que se quedan igual y un par de advertencias

GPQA Diamond bajó marginalmente de 94.2% a 93.6%. En tareas multilingüe con código, Gemini 3.1 Pro y GPT-5.5 todavía tienen ventaja. Y según análisis de Gray Swan sobre robustez ante prompt injection, la tasa de éxito de ataques subió de 6.0% en 4.7 a 9.6% en 4.8. Si tu aplicación procesa inputs no confiables, revisa tu sandboxing antes de migrar.

Anthropic ha ido consolidando su posición en el mercado enterprise de manera notable. Lo que antes era un modelo de IA relativamente de nicho, hoy tiene presencia en el 40% del mercado enterprise de LLMs, desplazando a OpenAI en un par de años. Opus 4.8 es el argumento técnico que sostiene esa posición.

La neta

Si ya usas Opus 4.7 en producción, la migración es prácticamente sin fricción. Sin breaking changes en la API, solo actualizar el model ID. Si aún estás en 4.6 o antes, sí hay pasos adicionales, en particular la migración de extended thinking.

Para desarrollo en México, el acceso vía API de Anthropic directa o Amazon Bedrock (que varios ya tienen contratado para otros servicios) es la ruta más directa. Claude Code en su tier de pago también recibe Opus 4.8 por defecto desde hoy.

Una chimba el salto en matemáticas y el benchmark legal, la verdad. Eso abre casos de uso que antes dependían de modelos especializados.

¿Ya migraste de 4.7 a 4.8? ¿Notaste diferencia en code review o en tareas largas de agentes? Suelta tu experiencia abajo.

Fuentes

¡Comparte!

#inteligencia-artificial #claude #anthropic #desarrollo #api

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar

tech

tech 20 may 2026 · 3 min

Google ya es el cloud de todos: OpenAI, Meta y Anthropic son rivales pero los tres dependen de Google para existir

Google invirtió $40B en Anthropic, OpenAI ya puede correr en Google Cloud y Meta firmó un deal de $10B con Google. La ironía más grande del boom de IA: los rivales de Google viven en sus servidores.

Leer

tech

tech 28 abr 2026 · 3 min

Tu IA negoció por ti sin avisarte — y si usabas el modelo 'tonto', te clocharon sin que te dieras cuenta

Anthropic armó un mercado secreto donde sus IAs compraron y vendieron cosas reales con dinero real. El resultado más inquietante: los usuarios del modelo más lento perdieron lana sin notarlo.

Leer

tech

tech 25 abr 2026 · 3 min

El CEO de Y Combinator publicó gratis su setup de IA: así conviertes Claude Code en un equipo de 23 especialistas con gstack

Garry Tan open-sourceó el stack exacto con el que escribe 10,000 líneas de código a la semana mientras dirige YC. Se llama gstack, tiene MIT license, y se instala en 30 segundos. Aquí te explico cómo funciona y si vale la pena para founders mexicanos.

Leer

Más de tech Todas las categorías