Una IA resolvió un problema de matemáticas que los humanos no pudieron en 7 años: el hito de GPT-5.4 en FrontierMath
GPT-5.4 Pro se convirtió en el primer modelo de IA en resolver un problema matemático abierto del benchmark FrontierMath de Epoch AI. Aquí está lo que pasó, por qué importa y qué significa para la ciencia en México y LATAM.
El 23 de marzo de 2026, Epoch AI publicó algo que los matemáticos no habían visto antes: la primera solución generada por IA a un problema matemático genuinamente abierto. No una variante de examen, no un ejercicio de posgrado disfrazado. Un problema de investigación real que llevaba sin resolverse desde 2019.
Lo hizo GPT-5.4 Pro. Y lo que vino después cambió la conversación sobre hasta dónde puede llegar la IA en ciencia.
Qué es FrontierMath y por qué nadie lo pasaba
FrontierMath es el benchmark de Epoch AI diseñado específicamente para que los modelos de IA no pudieran hacerse bolas memorizando respuestas. Sus problemas son inéditos, los escriben matemáticos de investigación activos, y van de nivel universitario avanzado hasta preguntas que ningún grupo ha podido responder formalmente.
El benchmark tiene cuatro niveles. Los Tiers 1 al 3 cubren desde licenciatura avanzada hasta posdoctorado temprano. El Tier 4 es matemáticas de investigación pura. Cuando GPT-4 salió en 2024, los mejores modelos resolvían menos del 5% de los problemas de los primeros tres tiers. Básicamente nada.
Hace unos meses, GPT-5.4 Pro marcó 50% en Tiers 1-3 y 38% en Tier 4. En 16 meses, el benchmark pasó de ser “imposible para la IA” a ser algo donde los modelos ya empatan con investigadores junior en muchas categorías.
El problema que nadie pudo resolver desde 2019
La pregunta específica que GPT-5.4 respondió viene de un paper de 2019 de los matemáticos Will Brian y Paul Larson. Es un problema de teoría de Ramsey sobre hipergrafos, y si eso suena intimidante, la versión corta es: se trata de encontrar estructuras matemáticas que eviten cierta propiedad de partición, mejorando los límites inferiores de una secuencia llamada H(n) que aparece en el estudio de convergencia simultánea de series infinitas.
La solución que entregó GPT-5.4 Pro, guiado por Kevin Barreto y Liam Price del equipo de Epoch, estableció que H(n) es mayor o igual a (26/25) por k_n para n mayor o igual a 15. En términos de teoría combinatoria, eso es un resultado significativo, porque en Ramsey mejorar aunque sea un poco los límites ya cuenta.
Will Brian, uno de los autores originales del problema, lo evaluó y dijo que la solución “sería publicable en una revista especializada estándar, y probablemente generaría nuevas preguntas”. Eso no es elogio vacío: significa que el resultado tiene valor matemático real, no solo que pasó un test automatizado. Brian planea escribir el resultado para publicación académica, con Barreto, Price y otro miembro del equipo como posibles coautores.
No fue solo GPT-5.4
Lo más interesante del anuncio de Epoch AI no es que GPT-5.4 lo resolvió. Es que cuando corrieron sus propias evaluaciones después, encontraron que Claude Opus 4.6 también puede resolver el problema, al igual que Gemini 3.1 Pro. Los tres modelos pueden llegar a la solución “al menos algunas veces” con el prompting correcto.
Eso sugiere que la capacidad de razonamiento matemático avanzado no es una peculiaridad de un modelo: ya es algo que múltiples laboratorios están logrando independientemente. La carrera de benchmarks de repente se puso mucho más interesante.
GPT-5.4 también resolvió dos problemas del Tier 4 que antes nadie había podido: en uno de ellos, el modelo encontró un preprint de 2011 que el propio autor del problema no conocía, y lo usó para acortar significativamente el trabajo necesario. Básicamente, la IA hizo lo que haría un investigador con acceso a buena bibliografía: encontró un resultado existente y lo aplicó de forma no obvia.
De cero a 50% en año y medio: qué significa esa curva
Desde Navidad de 2025, 15 problemas matemáticos abiertos pasaron de “sin resolver” a “resueltos”. De esos, 11 (73%) tienen participación directa de IA en su solución. Eso no es una anécdota: es una tendencia.
La comparación relevante es esta: hace 16 meses los mejores modelos del mundo resolvían cerca del 2% de FrontierMath. Hoy GPT-5.4 Pro está en 50% en los niveles 1-3. Si esa curva sigue, el siguiente año va a ser raro para la matemática de investigación.
Esto va más allá de que la IA “sea buena en mates”. Lo que FrontierMath mide es razonamiento abstracto sostenido, capacidad de mantener consistencia en cadenas largas de inferencia, y generalización a problemas que nunca estuvieron en los datos de entrenamiento. Esas capacidades se transfieren directamente a ciencia: diseño de experimentos, análisis de datos, modelado teórico.
Como cubrimos en el análisis de lo que 81,000 personas le dijeron a Anthropic sobre IA en LATAM, la región es una de las más optimistas del mundo respecto a IA. Este tipo de noticias explica por qué.
Los matemáticos no están de acuerdo (y está bien)
No todo el mundo está celebrando. Terence Tao, uno de los matemáticos más importantes vivos, ve el potencial colaborativo con IA como algo genuino. Pero Joel David Hamkins, lógico y filósofo matemático de Oxford, dijo que la IA para su área de investigación es “básicamente cero de utilidad”.
Los dos tienen razón, cada quien en su contexto. Para áreas como la combinatoria y la teoría de números computacional, donde los modelos pueden procesar grandes espacios de búsqueda, la IA ya tiene ventaja. Para matemáticas que dependen de intuición filosófica profunda y razonamiento ontológico, todavía no hay señales claras.
Lo interesante es que ninguna de las dos posiciones invalida la otra. La IA ya es útil para matemáticos en ciertas áreas. Y si vas a hablar de los límites del razonamiento actual de los modelos, el paper de Yann LeCun y los cuestionamientos filosóficos a los LLMs que cubrimos en la nota sobre AMI Labs siguen siendo válidos.
Qué significa esto para México y LATAM
La neta: mucho, pero dependiendo de qué tan rápido nos movamos.
México está avanzando en adopción de IA según datos de La Jornada de febrero de 2026, con penetración real en finanzas, manufactura, salud e investigación. Pero LATAM representa el 6.6% del PIB mundial y apenas el 1.12% de la inversión global en IA. Esa brecha no es sostenible si queremos que los investigadores mexicanos puedan usar estas herramientas al mismo nivel que sus contrapartes en EUA o Europa.
La buena noticia: acceder a GPT-5.4 Pro vía API o a Claude Opus 4.6 no requiere laboratorio privado. Un investigador de la UNAM o el Tec con acceso a estas herramientas hoy tiene más capacidad de cómputo matemático que cualquier departamento de matemáticas del mundo hace cinco años. El hardware no es el cuello de botella. Lo que falta es que más gente sepa usar estas herramientas para investigación real, no solo para generar resúmenes.
Eso es lo que está cambiando este resultado: no es que la IA “sea inteligente”. Es que la barrera de entrada para hacer matemáticas de investigación productiva bajó de forma permanente.
Y ahora qué
El siguiente paso natural es ver si los modelos pueden resolver problemas más difíciles del Tier 4. Hoy van al 38%. También está pendiente saber cuánto de ese rendimiento depende del scaffolding (cómo se estructura el prompt y el proceso de resolución) y cuánto es capacidad intrínseca del modelo.
Pero la pregunta más interesante no es de benchmarks: es cuándo un modelo de IA va a ser coautor de un paper matemático publicado en una revista A1. Según Will Brian, el resultado de GPT-5.4 ya califica para eso. Solo falta que alguien lo mande.
¿Tú usarías un modelo de IA para atacar un problema de investigación o crees que eso le quita sentido al trabajo? Comenta abajo.
Fuentes
- Epoch AI: First AI solution on FrontierMath: Open Problems
- Epoch AI: GPT-5.4 set a new record on FrontierMath
- WinBuzzer: GPT-5.4 Pro Cracks Open Math Problem
- Epoch AI: A Ramsey-style Problem on Hypergraphs
- ABC17 News/CNN Español: Qué puede hacer la IA por América Latina
- Our World in Data: Share of FrontierMath problems solved by AI
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Q1 2026: OpenAI levantó más plata en un trimestre que todo LATAM en un año. ¿Y México qué?
Q1 2026 rompió todos los récords: $239 mil millones fluyeron hacia IA en un solo trimestre. México tiene patentes pero no capital. Aquí te explico la brecha y los caminos reales para acercarse al dinero.
GPT-5.4 lleva un mes aquí y pocas empresas en México lo están usando bien: 5 casos reales que sí funcionan
GPT-5.4 llegó el 5 de marzo con computer use nativo, contexto de 1M tokens y 83% en GDPval. Aquí están los 5 casos de uso más concretos para empresas y emprendedores mexicanos, con precios reales.
#QuitGPT: 2.5 millones le dijeron no a ChatGPT después del trato con el Pentágono (y tus datos mexicanos también están en juego)
OpenAI firmó con el Departamento de Guerra de EE.UU. para meter su IA en redes clasificadas. El resultado: 295% más desinstalaciones, 2.5 millones en el movimiento #QuitGPT y preguntas muy incómodas sobre qué pasa con tus conversaciones.