Microsoft ya no necesita a OpenAI: lanzó 3 modelos de IA propios y el más barato supera a Whisper en 25 idiomas
MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 ya están en Microsoft Foundry. Son más baratos que OpenAI y Google, y el de transcripción aplasta a Whisper con la mitad de GPUs. Esto es la declaración formal de independencia de Microsoft.
El 2 de abril de 2026 Microsoft publicó tres modelos de IA propios en Microsoft Foundry y en el Microsoft AI Playground. Sin drama, sin gran keynote. Solo soltó los modelos, los precios y el benchmark. Y los números son suficientemente buenos como para que OpenAI y Google los estén volteando a ver con cuidado.
Se llaman MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Son el primer resultado visible del equipo MAI (Microsoft AI) Superintelligence, que se formó apenas en noviembre de 2025. Seis meses y ya tienen tres modelos en producción. No está mal para una empresa que hasta hace poco le compraba la inteligencia artificial a su vecino.
La historia detrás: por qué esto importa más de lo que parece
Cuando Microsoft metió su primer cheque en OpenAI en 2019, firmó también un contrato que le prohibía desarrollar modelos de IA de propósito general por su cuenta. Era la condición de OpenAI para darle acceso al tech. Microsoft aceptó porque en ese momento le convenía: compra la tecnología lista, la revende como Azure OpenAI Service y se lleva una tajada enorme sin invertir en research.
Eso cambió en septiembre de 2025. GeekWire reportó que Microsoft renegó el acuerdo con OpenAI y se liberó de esa restricción contractual. Un mes después formó el equipo MAI con Mustafa Suleyman al frente, el mismo que cofundó DeepMind y luego dirigió Google DeepMind. Este wey sabe lo que hace.
La pregunta que se hacía todo mundo era: ¿Microsoft realmente puede competir, o solo está jugando a la independencia mientras sigue dependiendo de GPT-4o en sus productos? Los tres modelos del 2 de abril son la respuesta.
MAI-Transcribe-1: el que le da en la madre a Whisper
Este es el más interesante del trío. Whisper de OpenAI ha sido durante años el estándar de facto para transcripción de audio, y según el benchmark que publicó Microsoft en el FLEURS multilingüe, MAI-Transcribe-1 le gana en los 25 idiomas que probaron. No en algunos, en todos.
Los números concretos:
- 3.8% de Word Error Rate (WER) promedio en los 25 idiomas. Eso es mejor que Whisper-large-v3, GPT-Transcribe, Gemini 3.1 Flash-Lite y Scribe v2.
- 2.5x más rápido que el propio servicio Azure Fast de Microsoft.
- 50% menos GPUs que la competencia de punta, según Mustafa Suleyman.
- $0.36 por hora de audio. Eso es competitivo, de verdad.
Los 25 idiomas incluyen español, portugués, francés, alemán, japonés, coreano, mandarín, hindi, árabe y otros. O sea, no es una mejora solo para el inglés, que es el truco clásico de estos benchmarks.
Ya está corriendo en producción en Copilot Voice y en Microsoft Teams. No es un demo: es el modelo que ya está transcribiendo tus juntas en Teams mientras tú checks el cel.
Lo que todavía no tiene al momento de publicar esto: streaming en tiempo real y diarización de hablantes (saber quién dijo qué). Microsoft dice que vienen “próximamente”. Por ahorita solo acepta archivos MP3, WAV y FLAC hasta 200MB.
MAI-Voice-1: 60 segundos de audio en menos de un segundo
Este es el que más me pareció la raja cuando leí el claim: genera 60 segundos de audio expresivo en menos de un segundo usando una sola GPU.
No es exageración de marketing. Está documentado en el blog oficial de Microsoft AI y confirmado por varios medios. La velocidad de síntesis de voz de este modelo es básicamente en tiempo real con margen de sobra.
Lo que puede hacer:
- Crear voces personalizadas a partir de solo unos segundos de audio de muestra.
- Mantener la identidad del hablante en contenido largo.
- Sonar natural y expresivo, no el robot de los anuncios del metro.
El precio es $22 por millón de caracteres. Para que tengas referencia: si generas un podcast de 30 minutos de contenido (aproximadamente 45,000 palabras), estás pagando alrededor de $1 USD. No es barato si escalas masivamente, pero para proyectos medianos está bien.
MAI-Image-2: top 3 en Arena.ai desde el día uno
El modelo de generación de imágenes llegó directo al top 3 del leaderboard de Arena.ai en la categoría de familias de modelos de imagen. Eso no es poca cosa: Arena.ai es el benchmark de preferencia humana más usado para comparar modelos de imagen, y entrar al podio desde el lanzamiento es una señal seria.
Las mejoras técnicas sobre el modelo anterior:
- 2x más rápido en Foundry y en Copilot.
- Mejor iluminación natural en las imágenes generadas.
- Mayor precisión en tonos de piel.
- Texto dentro de imágenes más legible (uno de los puntos débiles históricos de los generadores de imagen).
Precio: $5 por millón de tokens de entrada (texto) y $33 por millón de tokens de imagen generada. El 14 de abril Microsoft también lanzó MAI-Image-2-Efficient, una variante más rápida y económica, lo que sugiere que van a mantener un ritmo acelerado de iteración.
Lo que dice Suleyman y lo que no dice
Mustafa Suleyman declaró que los MAI son “más baratos que cualquier cosa de Google o OpenAI.” En términos de precio por tarea específica, los números lo respaldan para transcripción. Para imagen y voz, la comparación es más matizada dependiendo del volumen de uso.
Lo que no dice es cuándo va a haber un LLM frontier propio de Microsoft. El CEO ha insinuado que están trabajando en uno para ser “completamente independientes si es necesario”, pero por ahorita los tres modelos lanzados son verticales: cada uno hace una cosa muy bien, no hay un GPT-4-killer de Microsoft todavía.
Si quieres entender mejor el ecosistema de IAs que ya compiten en este espacio, en nuestra comparativa de ChatGPT vs Claude vs Gemini vs Grok vs DeepSeek tienes el mapa completo de quién es quién en 2026.
¿Qué significa esto para desarrolladores en México y LATAM?
Todo esto está disponible ya en Microsoft Foundry (antes Azure AI Foundry). Si tienes una cuenta de Azure, puedes acceder a los tres modelos en preview público ahorita mismo. No hay lista de espera ni acceso especial.
Para apps que usan transcripción de audio en español, MAI-Transcribe-1 es una opción muy seria. El español está en los 25 idiomas del benchmark, los precios son competitivos y ya está en producción en productos de Microsoft. Eso da confianza de que va a estar ahí cuando lo necesites.
Para proyectos donde ya usas la API de OpenAI y te estás preguntando si vale la pena explorar alternativas, esto es exactamente el tipo de señal que deberías estar monitoreando. Y si estás pensando en correr algo local en lugar de depender de APIs externas, en nuestra guía de cómo correr tu propia IA local con Ollama y LM Studio tienes la alternativa completa para proyectos donde el costo por token ya no es sostenible.
La tabla que importa
| Modelo | Qué hace | Precio | Punto fuerte |
|---|---|---|---|
| MAI-Transcribe-1 | Transcripción de audio | $0.36/hora de audio | Mejor WER que Whisper en 25 idiomas |
| MAI-Voice-1 | Síntesis de voz | $22/millón de caracteres | 60s de audio en <1s |
| MAI-Image-2 | Generación de imágenes | $5/M tokens entrada, $33/M tokens imagen | Top 3 en Arena.ai |
El fondo del asunto
Microsoft lleva años siendo el mejor distribuidor de IA ajena. Azure OpenAI Service fue un negocio impresionante, pero siempre con la debilidad de depender de que OpenAI no se fracture, cambie sus términos o decida hacer su propio cloud. Eso ya pasó varias veces de forma más o menos pública.
Ahora Microsoft tiene sus propios modelos en producción, un equipo de research serio y la infraestructura de Azure para escalarlos. No es independencia total, pero es un primer movimiento muy sólido. El que MAI-Transcribe-1 ya esté corriendo en Teams y Copilot Voice no es accidental: Microsoft se está acostumbrando a usar su propia comida para perros antes de venderla.
Si los siguientes seis meses siguen este ritmo, la conversación sobre “qué IA usar para mi app” va a tener un jugador más que tomar en serio.
¿Ya probaste alguno de los modelos MAI en Foundry? ¿O sigues en el equipo OpenAI? Cuéntame en los comentarios.
Fuentes
- Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry - Microsoft Community Hub
- Today we’re announcing 3 new world class MAI models - Microsoft AI
- Microsoft launches 3 new AI models in direct shot at OpenAI and Google - VentureBeat
- Microsoft releases new AI models to expand further beyond OpenAI - GeekWire
- Microsoft takes on AI rivals with three new foundational models - TechCrunch
- State of the Art Speech Recognition with MAI-Transcribe-1 - Microsoft AI
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
GPT-5.4-Cyber ya está disponible: cómo acceder desde México y qué puede hacer que ChatGPT normal no puede
OpenAI lanzó GPT-5.4-Cyber el 14 de abril para equipos de ciberseguridad verificados. Hace reverse engineering de binarios sin código fuente y tiene menor umbral de rechazo para trabajo defensivo legítimo. Te explico cómo acceder desde México.
OpenAI, Google y Anthropic se unieron contra China: 24,000 cuentas falsas y 16 millones de intercambios robados a Claude
Las tres labs más grandes de IA activaron el Frontier Model Forum para bloquear a DeepSeek, Moonshot y MiniMax, acusados de entrenar sus modelos con outputs robados a escala industrial. Si usas DeepSeek en México, esto te afecta.
OpenAI está corriendo contra el reloj: GPT-5.5 'Spud' terminó su entrenamiento y quiere llegar antes que Claude Mythos
OpenAI completó el preentrenamiento de GPT-5.5 (Spud) y Sam Altman dice que sale 'en semanas'. La carrera contra Claude Mythos de Anthropic ya empezó, y para los devs mexicanos el momento de elegir bando se acerca.