ia

MiniMax M2.5: el modelo chino open source que iguala a Claude Opus 4.6 y cuesta 20 veces menos

ia · 7 min de lectura (actualizado)

MiniMax M2.5: el modelo chino open source que iguala a Claude Opus 4.6 y cuesta 20 veces menos

MiniMax lanzó M2.5 en febrero 2026: open source, 80.2% en SWE-Bench (vs 80.8% de Claude Opus 4.6) y a $0.15 por millón de tokens. Para startups LATAM, esto cambia el juego completo.

MiniMax M2.5: el modelo chino open source que iguala a Claude Opus 4.6 y cuesta 20 veces menos

Imagínate que llegas a comprar una laptop y encuentras una que hace prácticamente lo mismo que la MacBook Pro más cara del mercado, pero a una vigésima parte del precio. Y encima te dan el código fuente para que la modifiques. Eso, en resumidas cuentas, es lo que acaba de hacer MiniMax con su modelo M2.5.

El 12 de febrero de 2026, la startup china MiniMax lanzó silenciosamente uno de los modelos de IA más disruptivos del año. Sin gran fanfarria, sin keynote de 90 minutos con música épica. Solo tiraron el modelo, pusieron los benchmarks y dijeron: “aquí está, cómparenlo”. Y cuando la gente lo comparó, se armó.

Qué rayos es MiniMax M2.5

MiniMax no es nueva en el juego. Es una startup china fundada en 2021 que ya tenía modelos de texto, audio, imagen y video funcionando. Con M2.5, su apuesta es clara: entrar al mercado de agentes de código y tareas complejas donde viven Claude Opus, GPT-5 y Gemini 3 Pro.

El modelo tiene 230 mil millones de parámetros totales, pero solo 10 mil millones activos (arquitectura MoE, igual que DeepSeek). Su contexto soporta hasta 200,000 tokens, lo que significa que puedes meter bases de código enormes sin que te deje a medias. Y está disponible en GitHub bajo código abierto, lo que no es poca cosa.

Las especificaciones técnicas quedan bien, pero lo que de verdad importa es cómo se porta en la práctica.

Los benchmarks: tan cerca que duele

MiniMax publicó los números de M2.5 en su sitio oficial y son, siendo honestos, impresionantes:

BenchmarkMiniMax M2.5Claude Opus 4.6
SWE-Bench Verified80.2%80.8%
Multi-SWE-Bench51.3%-
BrowseComp76.3%-
Droid (control UI)79.7%78.9%

La diferencia en SWE-Bench es de 0.6 puntos porcentuales. Cero punto seis. Para contexto, SWE-Bench mide qué tan bien el modelo resuelve issues reales de GitHub: bugs, features, pull requests. Es el benchmark más cercano a trabajo de programación real que existe hoy.

En Droid, que mide control de interfaces gráficas para automatización, M2.5 directamente supera a Claude Opus 4.6. Nada mal para un modelo que cuesta una fracción del precio.

Internamente, MiniMax reporta que el 80% de su código nuevo ya lo genera M2.5, y que automatiza el 30% de las tareas internas de la empresa.

El precio es donde explota todo

Aquí está el nudo del asunto. Mientras Claude Opus 4.6 de Anthropic cobra $25 por millón de tokens de salida, MiniMax M2.5 cobra $1.20 por millón de tokens de salida en su versión estándar. Si quieres la versión Lightning (100 tokens/segundo en vez de 50), son $2.40, todavía 10 veces más barato.

Para verlo más claro:

ModeloInput $/MOutput $/M
M2.5 Standard$0.15$1.20
M2.5 Lightning$0.30$2.40
Claude Opus 4.6$5.00$25.00
Gemini 3.1 Pro$2.00$12.00
GPT-5.2~$5.00~$20.00

Según el análisis de Verdent.ai, un equipo de 6 ingenieros corriendo 200 tareas diarias pagaría $20.46 al mes con M2.5 Standard, contra $227.70 al mes con Claude Opus 4.6 usando Batch API y caché. Diez veces más barato en uso real.

Si quisieras tener cuatro instancias de M2.5 corriendo de forma continua durante todo un año, el costo total es aproximadamente $10,000 dólares anuales. Con Claude Opus 4.6, ese mismo nivel de uso te saldría en el orden de los $100,000 dólares. No hay forma de suavizarlo: es una diferencia brutal.

Por qué esto le importa a las startups de LATAM

La neta es que el precio ha sido la barrera más grande para que empresas mexicanas y latinoamericanas integren IA de verdad en sus productos. Claude Opus o GPT-5 son herramientas increíbles pero los costos escalan rápido cuando estás construyendo un producto de software, automatizando procesos o corriendo agentes que hacen tareas largas.

Como exploramos en nuestra guía para correr IA local en 2026, la tendencia es clara: la gente busca calidad frontier sin los precios frontier. MiniMax M2.5 cumple ese requisito directamente por API, sin necesidad de instalar nada.

Para una startup mexicana que está construyendo una herramienta de automatización, un copiloto de código o un agente de soporte, la ecuación cambia completamente. Antes tenías que elegir entre usar un modelo potente y fundir tu runway, o usar algo más barato y sacrificar calidad. Ahora puedes tener lo primero a precio de lo segundo.

La guerra de modelos China vs Occidente

M2.5 no llega solo. En lo que va de marzo 2026, el ecosistema chino soltó una tanda de modelos que están moviendo el mercado: Kimi 2.5 de Moonshot, GLM-5 de Zhipu, actualizaciones de Alibaba, ByteDance y Baidu, y este M2.5 de MiniMax. Ya lo vimos con DeepSeek, pero esto está una chimba más coordinado.

CNBC reportó que UBS analizó los 5 modelos chinos lanzados en marzo y los posicionó como una amenaza directa al dominio de OpenAI y Anthropic en el mercado enterprise. La estrategia es consistente: modelos de calidad comparable pero a precios que los laboratorios occidentales no pueden (o no quieren) igualar.

Como analizamos en el post sobre DeepSeek V4 y los modelos chinos de 1 trillón de parámetros, el patrón es el mismo: eficiencia extrema, precios agresivos y código abierto como palanca de adopción.

La gran diferencia con M2.5 es que aquí no estamos hablando de un modelo más barato que hace las cosas a medias. Estamos hablando de benchmarks prácticamente idénticos a los mejores modelos del mundo occidental en tareas de código, con un modelo que además puedes hospedar tú mismo si no quieres depender de la API.

Lo que hay que tenerle en cuenta

M2.5 no es perfecto. Hay cosas importantes que saber antes de migrar todo tu stack:

Rendimiento en español: Los benchmarks son en inglés. MiniMax no ha publicado evaluaciones específicas en español para tareas de negocios. Antes de usarlo para tu producto latinoamericano, necesitas probarlo tú mismo con tus casos de uso reales.

Velocidad: M2.5 Standard genera salida a 50 tokens por segundo, que está por debajo del promedio de modelos similares. Para tareas interactivas puede sentirse lento; la versión Lightning (100 TPS, doble de precio) soluciona esto parcialmente.

Contexto de razonamiento: Al ser un modelo de razonamiento (usa chain-of-thought extendido), los costos en tareas muy largas pueden subir más de lo que los benchmarks de precio sugieren si no optimizas bien el tamaño de contexto.

Soporte y confiabilidad: Anthropic, OpenAI y Google tienen SLAs, soporte enterprise y años de track record. MiniMax es más joven. Para aplicaciones críticas, hay un elemento de riesgo que considerar.

¿Vale la pena probarlo?

Si programas, sí. Si estás construyendo algún producto que usa IA por API, definitivamente. La barrera de entrada es mínima: abres una cuenta en minimax.io, compras créditos de API (puedes empezar con muy poco dado los precios) y lo conectas igual que cualquier otra API compatible con OpenAI.

Si ya tienes un stack que usa Claude o GPT, lo más inteligente es correr un benchmark paralelo: manda las mismas tareas a M2.5 y a tu modelo actual, compara calidad de respuesta en español y en tus casos de uso específicos, y decides. Con los precios que tiene M2.5, el experimento te cuesta básicamente nada.

La pregunta no es si MiniMax M2.5 reemplaza a Claude Opus 4.6 en todos los casos. La pregunta es cuántos de tus casos de uso puede cubrir a 1/20 del costo. Y la respuesta, según los benchmarks, es: bastantes.

¿Ya lo probaste? ¿Hay algún tipo de tarea en español donde lo hayas visto flaquear? Cuéntame en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar