ia

Microsoft ya no necesita a OpenAI: lanzó 3 modelos de IA propios y el más barato supera a Whisper en 25 idiomas

ia · 7 min de lectura (actualizado)

Microsoft ya no necesita a OpenAI: lanzó 3 modelos de IA propios y el más barato supera a Whisper en 25 idiomas

MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 ya están en Microsoft Foundry. Son más baratos que OpenAI y Google, y el de transcripción aplasta a Whisper con la mitad de GPUs. Esto es la declaración formal de independencia de Microsoft.

Microsoft ya no necesita a OpenAI: lanzó 3 modelos de IA propios y el más barato supera a Whisper en 25 idiomas

El 2 de abril de 2026 Microsoft publicó tres modelos de IA propios en Microsoft Foundry y en el Microsoft AI Playground. Sin drama, sin gran keynote. Solo soltó los modelos, los precios y el benchmark. Y los números son suficientemente buenos como para que OpenAI y Google los estén volteando a ver con cuidado.

Se llaman MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Son el primer resultado visible del equipo MAI (Microsoft AI) Superintelligence, que se formó apenas en noviembre de 2025. Seis meses y ya tienen tres modelos en producción. No está mal para una empresa que hasta hace poco le compraba la inteligencia artificial a su vecino.

La historia detrás: por qué esto importa más de lo que parece

Cuando Microsoft metió su primer cheque en OpenAI en 2019, firmó también un contrato que le prohibía desarrollar modelos de IA de propósito general por su cuenta. Era la condición de OpenAI para darle acceso al tech. Microsoft aceptó porque en ese momento le convenía: compra la tecnología lista, la revende como Azure OpenAI Service y se lleva una tajada enorme sin invertir en research.

Eso cambió en septiembre de 2025. GeekWire reportó que Microsoft renegó el acuerdo con OpenAI y se liberó de esa restricción contractual. Un mes después formó el equipo MAI con Mustafa Suleyman al frente, el mismo que cofundó DeepMind y luego dirigió Google DeepMind. Este wey sabe lo que hace.

La pregunta que se hacía todo mundo era: ¿Microsoft realmente puede competir, o solo está jugando a la independencia mientras sigue dependiendo de GPT-4o en sus productos? Los tres modelos del 2 de abril son la respuesta.

MAI-Transcribe-1: el que le da en la madre a Whisper

Este es el más interesante del trío. Whisper de OpenAI ha sido durante años el estándar de facto para transcripción de audio, y según el benchmark que publicó Microsoft en el FLEURS multilingüe, MAI-Transcribe-1 le gana en los 25 idiomas que probaron. No en algunos, en todos.

Los números concretos:

  • 3.8% de Word Error Rate (WER) promedio en los 25 idiomas. Eso es mejor que Whisper-large-v3, GPT-Transcribe, Gemini 3.1 Flash-Lite y Scribe v2.
  • 2.5x más rápido que el propio servicio Azure Fast de Microsoft.
  • 50% menos GPUs que la competencia de punta, según Mustafa Suleyman.
  • $0.36 por hora de audio. Eso es competitivo, de verdad.

Los 25 idiomas incluyen español, portugués, francés, alemán, japonés, coreano, mandarín, hindi, árabe y otros. O sea, no es una mejora solo para el inglés, que es el truco clásico de estos benchmarks.

Ya está corriendo en producción en Copilot Voice y en Microsoft Teams. No es un demo: es el modelo que ya está transcribiendo tus juntas en Teams mientras tú checks el cel.

Lo que todavía no tiene al momento de publicar esto: streaming en tiempo real y diarización de hablantes (saber quién dijo qué). Microsoft dice que vienen “próximamente”. Por ahorita solo acepta archivos MP3, WAV y FLAC hasta 200MB.

MAI-Voice-1: 60 segundos de audio en menos de un segundo

Este es el que más me pareció la raja cuando leí el claim: genera 60 segundos de audio expresivo en menos de un segundo usando una sola GPU.

No es exageración de marketing. Está documentado en el blog oficial de Microsoft AI y confirmado por varios medios. La velocidad de síntesis de voz de este modelo es básicamente en tiempo real con margen de sobra.

Lo que puede hacer:

  • Crear voces personalizadas a partir de solo unos segundos de audio de muestra.
  • Mantener la identidad del hablante en contenido largo.
  • Sonar natural y expresivo, no el robot de los anuncios del metro.

El precio es $22 por millón de caracteres. Para que tengas referencia: si generas un podcast de 30 minutos de contenido (aproximadamente 45,000 palabras), estás pagando alrededor de $1 USD. No es barato si escalas masivamente, pero para proyectos medianos está bien.

MAI-Image-2: top 3 en Arena.ai desde el día uno

El modelo de generación de imágenes llegó directo al top 3 del leaderboard de Arena.ai en la categoría de familias de modelos de imagen. Eso no es poca cosa: Arena.ai es el benchmark de preferencia humana más usado para comparar modelos de imagen, y entrar al podio desde el lanzamiento es una señal seria.

Las mejoras técnicas sobre el modelo anterior:

  • 2x más rápido en Foundry y en Copilot.
  • Mejor iluminación natural en las imágenes generadas.
  • Mayor precisión en tonos de piel.
  • Texto dentro de imágenes más legible (uno de los puntos débiles históricos de los generadores de imagen).

Precio: $5 por millón de tokens de entrada (texto) y $33 por millón de tokens de imagen generada. El 14 de abril Microsoft también lanzó MAI-Image-2-Efficient, una variante más rápida y económica, lo que sugiere que van a mantener un ritmo acelerado de iteración.

Lo que dice Suleyman y lo que no dice

Mustafa Suleyman declaró que los MAI son “más baratos que cualquier cosa de Google o OpenAI.” En términos de precio por tarea específica, los números lo respaldan para transcripción. Para imagen y voz, la comparación es más matizada dependiendo del volumen de uso.

Lo que no dice es cuándo va a haber un LLM frontier propio de Microsoft. El CEO ha insinuado que están trabajando en uno para ser “completamente independientes si es necesario”, pero por ahorita los tres modelos lanzados son verticales: cada uno hace una cosa muy bien, no hay un GPT-4-killer de Microsoft todavía.

Si quieres entender mejor el ecosistema de IAs que ya compiten en este espacio, en nuestra comparativa de ChatGPT vs Claude vs Gemini vs Grok vs DeepSeek tienes el mapa completo de quién es quién en 2026.

¿Qué significa esto para desarrolladores en México y LATAM?

Todo esto está disponible ya en Microsoft Foundry (antes Azure AI Foundry). Si tienes una cuenta de Azure, puedes acceder a los tres modelos en preview público ahorita mismo. No hay lista de espera ni acceso especial.

Para apps que usan transcripción de audio en español, MAI-Transcribe-1 es una opción muy seria. El español está en los 25 idiomas del benchmark, los precios son competitivos y ya está en producción en productos de Microsoft. Eso da confianza de que va a estar ahí cuando lo necesites.

Para proyectos donde ya usas la API de OpenAI y te estás preguntando si vale la pena explorar alternativas, esto es exactamente el tipo de señal que deberías estar monitoreando. Y si estás pensando en correr algo local en lugar de depender de APIs externas, en nuestra guía de cómo correr tu propia IA local con Ollama y LM Studio tienes la alternativa completa para proyectos donde el costo por token ya no es sostenible.

La tabla que importa

ModeloQué hacePrecioPunto fuerte
MAI-Transcribe-1Transcripción de audio$0.36/hora de audioMejor WER que Whisper en 25 idiomas
MAI-Voice-1Síntesis de voz$22/millón de caracteres60s de audio en <1s
MAI-Image-2Generación de imágenes$5/M tokens entrada, $33/M tokens imagenTop 3 en Arena.ai

El fondo del asunto

Microsoft lleva años siendo el mejor distribuidor de IA ajena. Azure OpenAI Service fue un negocio impresionante, pero siempre con la debilidad de depender de que OpenAI no se fracture, cambie sus términos o decida hacer su propio cloud. Eso ya pasó varias veces de forma más o menos pública.

Ahora Microsoft tiene sus propios modelos en producción, un equipo de research serio y la infraestructura de Azure para escalarlos. No es independencia total, pero es un primer movimiento muy sólido. El que MAI-Transcribe-1 ya esté corriendo en Teams y Copilot Voice no es accidental: Microsoft se está acostumbrando a usar su propia comida para perros antes de venderla.

Si los siguientes seis meses siguen este ritmo, la conversación sobre “qué IA usar para mi app” va a tener un jugador más que tomar en serio.

¿Ya probaste alguno de los modelos MAI en Foundry? ¿O sigues en el equipo OpenAI? Cuéntame en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar