Nature publicó los números y no mienten: los mejores agentes de IA hacen la mitad del trabajo de un PhD real
El Stanford AI Index 2026 y un estudio de Nature confirmaron que los top agentes de IA solo alcanzan el 50% del rendimiento de un científico con doctorado en tareas complejas. Y México ya destina casi el 10% de su presupuesto TIC a esto.
El 13 de abril de 2026, Stanford y Nature publicaron el mismo día dos documentos que deberían hacernos bajar un poco los humos a todos los que andamos hypeanado la IA como si ya hubiera llegado la singularidad. El veredicto es claro y con números: los mejores agentes de IA del planeta, los modelos frontier de Google, OpenAI y Anthropic, completan las tareas científicas complejas al 50% del nivel de un investigador humano con doctorado. No al 90%. No al 80%. Al 50.
Y México, mientras tanto, ya está metiendo el 9.8% de su presupuesto TIC en proyectos de IA. Hay que platicar.
Los números que nadie quiere ver
El Stanford AI Index 2026 evaluó a los agentes de IA en benchmarks que van más allá de los típicos “responde esta pregunta de opción múltiple”. Hablamos de flujos de trabajo científicos de múltiples pasos: diseñar experimentos, revisar literatura, depurar protocolos, cruzar datos de varios papers.
En PaperArena, uno de los benchmarks más exigentes, el mejor agente evaluado fue Gemini 2.5 Pro en configuración multi-agente. Su score: 38.78%. El baseline de los expertos PhD humanos en las mismas tareas: 83.50%. Una brecha de casi 45 puntos porcentuales.
En DiscoveryWorld, otro benchmark diseñado para simular descubrimiento científico real con 120 tareas en 8 dominios distintos, los sistemas de IA completan apenas el 20% de las tareas de mayor dificultad. Los científicos humanos avanzados resuelven alrededor del 70% de esas mismas tareas.
Nature lo publicó directamente con este título sin rodeos: “Human scientists trounce the best AI agents on complex tasks”. Traducción al chile: los científicos humanos le ganan con todo y apellido a los mejores agentes de IA en tareas complejas.
Pero ojo, la IA sí rifa en lo estrecho
Aquí es donde la historia se pone interesante, porque el mismo reporte muestra que la IA ha hecho avances salvajes cuando la tarea es concreta y bien definida.
En SWE-bench, que mide capacidad para resolver issues de código real en GitHub, los agentes pasaron de resolver el 60% de los casos hace un año a casi el 100% ahora mismo. En tareas de triage de ciberseguridad, brincaron del 15% al 93% en el mismo período.
O sea: la IA es una bestia cuando la problema es estrecho, repetible y tiene una respuesta verificable. Cuando le pides que code, que encuentre un bug, que clasifique un incidente de seguridad, ahí sí le parte la madre al humano en velocidad.
Pero en ciencia real, el pedo es otro. La ciencia requiere hacer preguntas que nadie ha hecho, diseñar experimentos para responder cosas sin respuesta conocida, y navegar la incertidumbre sin un “answer key” al final del examen. Ahí la IA todavía no llega.
Además, el Stanford AI Index también señala que los modelos frontier tienen scores por debajo del 20% en ReplicationBench, un benchmark de replicación de papers de astrofísica. O sea, no solo no generan ciencia nueva, sino que les cuesta reproducir la que ya existe.
El detalle que más me llama la atención: solo el 6-9% de los papers mencionan IA
Otro dato del mismo reporte que deja pensando: de todos los papers publicados en ciencias naturales en 2025, solo entre el 6% y el 9% mencionan siquiera la palabra IA. Eso en los campos donde más se usa, como ciencias de la tierra. En muchas áreas, el porcentaje es menor.
Sí, el número creció (en 2010 era menos del 1%), y sí, en 2025 se publicaron más de 80,000 papers que mencionan IA en ciencias naturales. Pero “mencionar IA” no es lo mismo que “usar IA como herramienta central de la investigación”. La mayoría de esos papers simplemente la referencian de pasada.
Hay también un dato preocupante que viene de Nature aparte, un segundo estudio que vale la pena googlear: la IA tiende a hacer que la ciencia se concentre en los mismos problemas populares de siempre, generando literatura menos interconectada y más circular. Básicamente, la IA como herramienta está empujando a los investigadores a trabajar en lo que ya está de moda, no en lo que nadie ha explorado. Wey, eso es lo más fome que podrías hacer con una herramienta que supuestamente iba a revolucionar el conocimiento humano.
Y México apostando el 9.8% del presupuesto TIC a esto
Aquí viene el ángulo local que no podemos ignorar.
Según una encuesta de Select, la consultora mexicana de TI, publicada hace unos días por infochannel.info, el 9.8% del total del presupuesto TIC de las empresas mexicanas ya va a proyectos de IA. Eso es parte de un presupuesto de innovación que representa el 18.5% del gasto TIC total, lo que significa que la IA está absorbiendo más de la mitad del presupuesto de innovación de las organizaciones encuestadas.
El estudio habló con CIOs de sectores clave: finanzas, manufactura, educación, logística, telecomunicaciones, retail y consumo. Y casi un cuarto de ellos listó una categoría de IA (agentes, IA generativa, ML) como su prioridad número uno para 2026.
La pregunta es: ¿qué están comprando exactamente?
Si están metiendo lana en automatizar tareas repetitivas y bien definidas, como clasificación de documentos, respuesta a clientes, análisis de datos estructurados, eso tiene sentido total con lo que la IA sí sabe hacer bien. Pero si están comprando el pitch de “agentes de IA que van a hacer investigación y desarrollo por nosotros”, los datos del Stanford AI Index 2026 deberían ser una llamada de atención.
Vale la pena que los tomadores de decisión en México lean estos benchmarks antes de firmar contratos de varios millones de pesos. Si ya habías visto nuestra comparativa de ChatGPT vs Claude vs Gemini vs Grok vs DeepSeek, sabes que la diferencia entre modelos no es tan brutal en uso cotidiano, pero en tareas científicas complejas, la brecha entre lo que prometen y lo que entregan es enorme.
Lo que significa esto al chile
No es que la IA sea inútil. Es que el hype llegó antes que la capacidad real.
Los modelos frontier son genuinamente buenos en cosas concretas y repetibles. Son herramientas brutales de productividad para trabajo que ya sabes cómo hacer. Pero el sueño de “el agente de IA que hace investigación científica autónoma como un PhD” todavía no existe, y ahora tenemos los benchmarks que lo demuestran con números feos.
Un dato adicional que me pareció chido: una encuesta citada en el Hastings Center Report de febrero 2026 encontró que el 82% de los investigadores reportaron menor satisfacción en su trabajo cuando la IA está presente en su flujo. Eso dice algo sobre cómo se siente usar estas herramientas en investigación real.
Si te interesa el lado práctico de correr IA sin depender de servicios en la nube, hay opciones locales que pueden tener más sentido para ciertos casos de uso, algo que ya exploramos en nuestra guía para correr IA local con Ollama y LM Studio.
La ciencia, por ahora, sigue siendo territorio humano. La IA es un buen copiloto, no un reemplazo. Y en México, espero que los que están firmando esos cheques TIC ya tengan claro cuál es cuál.
¿Tú crees que las empresas mexicanas están apostando bien su presupuesto de IA, o están comprando hype? Cuéntame abajo.
Fuentes
- Human scientists trounce the best AI agents on complex tasks (Nature)
- 2026 AI Index Report, Science Chapter (Stanford HAI)
- AI Agents Score Half as Well as PhDs on Real Work (humAI.blog)
- IA absorbe el presupuesto TIC en México (infochannel.info)
- Benefits and Risks of Using AI Agents in Research (NIH/PMC)
- Evaluating agents for scientific discovery (Allen Institute for AI)
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Claude Managed Agents: Anthropic quiere hospedar, escalar y correr tus agentes de IA para que tú solo escribas el prompt
Anthropic lanzó su plataforma de agentes gestionados el 8 de abril: infraestructura lista para producción a $0.08 USD por hora de sesión activa. Notion, Rakuten y Asana ya la usan. Esto es lo que debes saber si eres dev o startup en México.
Claude Code Channels: cómo configurarlo con Telegram en 5 minutos y ejecutar código desde el celular
Guía paso a paso para configurar Claude Code Channels con Telegram en México. Le mandas mensajes desde el celular, tu PC ejecuta el código y te responde al instante. Comparativa con OpenClaw incluida.
Una IA resolvió un problema de matemáticas que los humanos no pudieron en 7 años: el hito de GPT-5.4 en FrontierMath
GPT-5.4 Pro se convirtió en el primer modelo de IA en resolver un problema matemático abierto del benchmark FrontierMath de Epoch AI. Aquí está lo que pasó, por qué importa y qué significa para la ciencia en México y LATAM.