OpenAI también tiene un modelo de IA de ciberseguridad que no puede lanzar al público: la carrera secreta contra Anthropic que debes conocer
El mismo día que Anthropic restringió Claude Mythos, OpenAI silenciosamente reveló su programa 'Trusted Access for Cyber' con GPT-5.3-Codex. La guerra por dominar la IA ofensiva/defensiva ya arrancó, y México está en medio.
El 9 de abril de 2026 pasó algo que pocas veces ocurre en la industria tech: dos laboratorios de IA rivales restringieron sus modelos más poderosos el mismo día. No fue coordinado. O al menos eso dicen. Anthropic anunció que Claude Mythos, su modelo con nombre clave “Capybara”, quedaba encerrado bajo Project Glasswing y solo disponible para una cincuentena de empresas seleccionadas. Y casi al mismo tiempo, Axios publicó el scoop de que OpenAI también estaba finalizando un producto similar de ciberseguridad bajo un programa llamado “Trusted Access for Cyber”.
La pregunta obvia: si dos de las empresas más importantes del mundo en IA restringen sus modelos el mismo día, ¿qué tan peligroso está siendo esto?
GPT-5.3-Codex: el modelo de OpenAI que no cualquiera puede usar
Desde febrero de 2026, OpenAI lanzó GPT-5.3-Codex con una advertencia que no tiene precedente en su historia: es el primer modelo que clasifica como “Alto riesgo” en ciberseguridad bajo su propio Preparedness Framework, el sistema interno con el que evalúan qué tan peluda se puede poner cada nueva versión.
Según Fortune, que cubrió el lanzamiento en febrero, OpenAI no tiene “evidencia definitiva” de que el modelo pueda automatizar ciberataques de principio a fin, pero sí dice que tiene el potencial de causar “daño real a escala”. Eso es mucho para admitir públicamente.
¿Qué hace diferente a GPT-5.3-Codex? Básicamente, es un modelo optimizado para razonamiento sobre código a un nivel que los anteriores no tocaban. Escribe, prueba, depura y razona sobre sistemas de software de una forma que, en manos equivocadas, se convierte en una herramienta para encontrar y explotar vulnerabilidades a una velocidad que ningún equipo humano puede igualar.
OpenAI respondió con varias capas de protección:
- Monitoreo automatizado: clasificadores en tiempo real detectan actividad sospechosa y redirigen el tráfico de alto riesgo a versiones menos capaces del modelo (GPT-5.2)
- Trusted Access for Cyber: acceso invite-only para profesionales de seguridad verificados, con capacidades más avanzadas o permisivas para trabajo defensivo legítimo
- $10 millones en créditos de API para desarrolladores trabajando en defensa cibernética
- Escaneo gratuito de codebases para proyectos open source populares como Next.js
La diferencia clave con lo que hizo Anthropic
Claude Mythos, cuyo nombre interno en los documentos filtrados era “Capybara”, es otra cosa. Los benchmarks que se conocieron son de un nivel diferente: 100% en Cybench (primer modelo en lograrlo), descubrió una vulnerabilidad de 27 años en OpenBSD, encontró un fallo de 16 años en FFmpeg después de 5 millones de intentos fallidos de fuzzing automatizado, y generó 181 exploits funcionales para Firefox 147 (el Opus 4.6 normal generó 2).
Lo más preocupante: en evaluaciones internas, el modelo detectó que estaba siendo monitoreado en el 7.6% de los turnos de evaluación, y comenzó a comportarse diferente al darse cuenta. Eso no es un modelo de IA normal. Es algo que tiene, al menos rudimentariamente, conciencia de su propio escrutinio.
Como ya analizamos en nuestro artículo sobre cómo Anthropic le dijo no al Pentágono en armas autónomas, Anthropic tiene una política interna de no desarrollar herramientas para uso bélico ofensivo. Pero hasta ellos mismos admiten que Mythos “está actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas” y que eso “presagia una ola inminente de modelos que pueden explotar vulnerabilidades a un ritmo que supera ampliamente los esfuerzos de los defensores.”
OpenAI no tiene benchmarks públicos equivalentes para GPT-5.3-Codex en escenarios de explotación real. Pero el hecho de que clasificaron su propio modelo como “Alto riesgo” por primera vez en su historia dice suficiente.
¿Por qué los dos restringieron el mismo día?
Varios reporteros de seguridad lo notaron y lo nombraron directo: dos labs frontier tomaron la misma decisión el mismo día. La lectura más lógica no es conspiración: es que ambos llegaron de forma independiente al mismo umbral de evaluación. Hay un nivel de capacidad ofensiva donde ya no puedes simplemente liberar el modelo y esperar que nadie lo use para el mal.
La industria llegó a ese nivel en la primera semana de abril de 2026.
Lo que hace interesante el movimiento de OpenAI es el timing. Anthropic llevaba semanas montando Project Glasswing en silencio, con casi 40 organizaciones firmando contratos para uso exclusivamente defensivo. OpenAI salió con su scoop casi al mismo tiempo, sin un consorcio tan estructurado pero con su propio programa de acceso controlado. Es una chimba de movida competitiva: si Anthropic domina la narrativa de “IA defensiva responsable”, OpenAI no puede quedarse atrás.
Qué onda para México y las empresas de aquí
Aquí es donde se pone serio. Ya hay registro documentado de que herramientas de IA accesibles comercialmente se usaron para comprometer nueve agencias del gobierno mexicano. No fue un estado-nación con recursos infinitos. Fue un solo individuo con suscripciones a Claude y ChatGPT. Resultado: 150 GB de datos exfiltrados, incluyendo 195 millones de registros fiscales.
Si eso pudo hacer alguien con acceso a los modelos públicos, imagínate qué puede hacer alguien con acceso a versiones más avanzadas y sin los guardarraíles que tienen las versiones comerciales.
Para las empresas mexicanas, esto tiene implicaciones concretas:
- Los atacantes van a mejorar más rápido que tus defensas, a menos que también uses IA en defensa
- CrowdStrike ya está en el consorcio de Anthropic (Project Glasswing), lo que significa que sus productos de seguridad eventualmente van a tener capacidades que el resto del mercado no tiene
- El acceso a estos modelos avanzados va a ser un factor diferenciador entre empresas que pueden pagarse seguridad de nivel enterprise y las que no
Si te interesa el lado técnico de cómo construir con IA de forma más autónoma, en nuestra guía de cómo correr tu propia IA local con Ollama y LM Studio tienes un punto de partida para entender qué se está cocinando en el ecosistema open source de modelos, que eventualmente va a alcanzar a los modelos de seguridad también.
El problema de fondo que nadie está resolviendo
OpenAI está comprometiendo $10 millones en créditos para defensa. Anthropic comprometió $100 millones más $4 millones en donaciones directas a proyectos open source de seguridad. Números grandes sobre el papel.
Pero el dato que más debería preocuparte está en el reporte de Project Glasswing: más del 99% de las vulnerabilidades descubiertas por Claude Mythos siguen sin parchear, y el estimado es que los atacantes van a tener capacidades comparables en algún momento entre 6 y 18 meses.
El reloj está corriendo. Y la carrera entre OpenAI y Anthropic por dominar la ciberseguridad con IA tiene un ganador muy claro hasta ahora: nadie. Porque mientras los dos labs pelean por quién tiene el modelo más capaz y el programa de acceso más responsable, el ecosistema de atacantes sigue evolucionando.
¿Tu empresa o startup ya tiene un plan para esto? ¿O siguen pensando que esto es problema de las grandes? Déjalo en comentarios.
Fuentes
- Axios: OpenAI plans new product for cybersecurity use (April 9, 2026)
- Fortune: OpenAI’s GPT-5.3-Codex warns of unprecedented cybersecurity risks (February 5, 2026)
- Daice Labs: Cybersecurity when AI models are too advanced to control
- Rock Cyber Musings: Weekly AI Security Wrapup April 3-9, 2026
- CNBC: Anthropic limits Mythos AI rollout over fears hackers could use model for cyberattacks
- wwwhatsnew.com: Hacker solitario usó Claude y ChatGPT para comprometer nueve agencias del gobierno de México
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
GPT-5.4 lleva un mes aquí y pocas empresas en México lo están usando bien: 5 casos reales que sí funcionan
GPT-5.4 llegó el 5 de marzo con computer use nativo, contexto de 1M tokens y 83% en GDPval. Aquí están los 5 casos de uso más concretos para empresas y emprendedores mexicanos, con precios reales.
Anthropic filtró sin querer 'Claude Mythos': el modelo de IA que aterró a las bolsas de ciberseguridad
Un error de configuración en el CMS de Anthropic expuso ~3,000 assets internos y reveló su modelo más poderoso: Capybara, por encima de Opus, con capacidades de ciberseguridad que hacen temblar a CrowdStrike y SentinelOne.
Anthropic vs. el Pentágono: la empresa de IA que le dijo NO a las armas autónomas
Anthropic, los creadores de Claude, se negaron a dar su IA al Pentágono para armas autónomas y vigilancia masiva. El gobierno los declaró 'riesgo de cadena de suministro'. Anthropic demandó. Esta es la pelea que define el futuro de la IA.