ia

Gemma 4: Google lanzó el modelo de IA que corre offline en tu celular y ya aplasta a modelos 10 veces más grandes

ia · 7 min de lectura

Gemma 4: Google lanzó el modelo de IA que corre offline en tu celular y ya aplasta a modelos 10 veces más grandes

Google liberó Gemma 4 el 2 de abril bajo licencia Apache 2.0 pura: corre en tu smartphone sin internet, soporta 256K tokens de contexto y el 31B supera en benchmarks a modelos 20 veces más grandes. Esto cambia todo para devs en México y LATAM.

Gemma 4: Google lanzó el modelo de IA que corre offline en tu celular y ya aplasta a modelos 10 veces más grandes

El 2 de abril, Google soltó algo que no esperaba nadie con esa magnitud: Gemma 4, su nueva familia de modelos open source, bajo licencia Apache 2.0 completa, sin restricciones raras, sin acuerdos especiales con Google. Y lo más impresionante no es el 31B aplastando benchmarks de matemáticas universitarias: es que el modelo chico cabe en un teléfono y corre sin internet.

Si eres dev independiente, startup o simplemente alguien que quiere correr IA sin pagarle renta mensual a AWS o Azure, este es el momento que llevabas esperando.

Cuatro modelos, cuatro propósitos

Gemma 4 no es un solo modelo sino una familia de cuatro variantes, y eso es importante porque cada una ataca un problema distinto:

ModeloParams efectivosContextoPara qué sirve
E2B2B128KSmartphones, Raspberry Pi
E4B4B128KMóvil/edge con más potencia
26B A4B (MoE)3.8B activos256KGPU de consumidor, corre rápido
31B Dense30.7B256KServidor, máximo rendimiento

El truco del 26B es la arquitectura Mixture-of-Experts: aunque el modelo tiene 26B parámetros totales, solo activa 4B en cada inferencia. En la práctica, corre casi tan rápido como un modelo pequeño pero razona como uno grande. Una chimba de solución de ingeniería, la verdad.

Los modelos E2B y E4B son los interesantes para el rollo on-device: el E2B cuantizado pesa cerca de 1.5 GB y corre en Android, iOS y en una Raspberry Pi 5 de 45 dólares (modelo base 1GB). Sí, en la misma Raspberry Pi que le compras a tus alumnos o tienes de servidor de casa.

Los números que hacen ruido: 89.2% en AIME 2026

El Gemma 4 31B sacó 89.2% en el benchmark AIME 2026, que son los problemas de matemáticas olímpicas de nivel universitario, de los más difíciles que existen para medir razonamiento. Para comparar: Gemma 3 27B, la generación anterior, sacó 20.8% en la misma prueba. Eso es un salto brutal en una sola generación.

Otros números del 31B que verificamos contra la tarjeta oficial del modelo:

  • MMLU Pro: 85.2%
  • GPQA Diamond (razonamiento científico avanzado): 84.3%
  • LiveCodeBench v6 (código real): 80.0%
  • Codeforces ELO: 2150 (nivel competitivo serio)
  • MMMU Pro con visión: 76.9%

En el leaderboard LMArena, el 31B está en top 3 y el 26B MoE en top 6 entre todos los modelos open source, superando modelos con hasta 20 veces más parámetros. Un 31B tirando por encima de modelos de 400B+ es el tipo de cosa que hace un año sonaría a exageración de marketing.

Multimodal de verdad, no de adorno

Todos los modelos ven imágenes, incluidos video mediante secuencias de frames. Pero el audio es exclusivo de los modelos edge: los E2B y E4B hacen reconocimiento automático de voz (ASR), traducción de voz a texto y responden preguntas sobre audio directamente, todo offline en el teléfono.

El soporte de idiomas es de 140+ idiomas en preentrenamiento y más de 35 idiomas con instruction-following funcional. El español está bien representado, lo cual importa para quienes construyen para México y LATAM.

Apache 2.0: esto cambia las reglas del negocio

Las versiones anteriores de Gemma tenían una licencia propia de Google con restricciones comerciales. Gemma 4 llega bajo Apache 2.0 completa, que significa:

  • Puedes usarlo en producción comercial sin avisar a Google
  • Puedes hacer fine-tuning y quedarte los pesos resultantes como propietarios
  • Puedes redistribuirlo y modificarlo
  • No hay letra chica de “uso educativo solamente”

Para una startup mexicana o un dev indie que construye un producto, esto es enorme. Antes tenías que elegir entre pagar cloud (OpenAI, Anthropic, Google), usar Llama con su licencia Meta que tiene sus propias restricciones, o lidiar con modelos más pequeños y menos capaces. Ahora tienes un modelo que compite con GPT-4 class con licencia completamente limpia.

Cómo correrlo en tu máquina hoy

Si ya tienes Ollama instalado, es tan sencillo como:

ollama run gemma4:e4b

Si no tienes Ollama ni sabes por dónde empezar, en nuestra guía para correr IA local con Ollama y LM Studio explicamos todo desde cero.

También puedes correrlo con llama.cpp, MLX en Apple Silicon, transformers.js directo en el navegador con WebGPU, o ONNX si trabajas en entornos multiplataforma. Hugging Face ya tiene los modelos subidos con todo el tooling necesario y ejemplos de código para cada framework.

Para el E2B en Raspberry Pi 5: primer token tarda 3-4 segundos, generación a 8-12 tokens por segundo. No vas a hacer streams de Twitch con eso, pero para un asistente local, un bot de WhatsApp que corre en casa o una herramienta de procesamiento de texto, funciona perfectamente bien.

El ángulo que importa para México y LATAM

La conversación sobre IA en México siempre termina en el mismo lugar: “sí, pero sale muy caro en producción” o “necesitas contar con que hay latencia de la nube”. Gemma 4 derrumba ambos argumentos.

Construir un producto de IA con el 31B sobre tu propio servidor o VPS cuesta lo que cueste el hardware, punto. Sin tokens, sin pricing dinámico, sin que OpenAI te duplique el precio de la API porque tuvo un trimestre malo. Para el mercado de startups de tecnología en México, donde los márgenes son ajustados y el acceso a financiamiento es limitado, tener un modelo de esta calibre bajo Apache 2.0 es una ventaja real.

El 26B MoE es particularmente interesante porque, gracias a que solo activa 3.8B parámetros por inferencia, puede correr en una GPU de consumidor como una RTX 4080 o incluso en CPU si tienes paciencia. No necesitas infraestructura de data center.

Y los modelos edge, E2B y E4B, abren la posibilidad de apps con IA completamente offline, lo cual es relevante para mercados con conectividad irregular. No todo México tiene fibra óptica estable y eso lo sabe cualquiera que haya trabajado fuera de CDMX o Monterrey.

Si te interesa comparar Gemma 4 contra los servicios de IA de pago que ya existen, tenemos un comparativo directo de ChatGPT, Claude, Gemini, Grok y DeepSeek con precios en 2026 que te ayuda a entender qué conviene según tu caso de uso. Y si quieres entender el contexto más amplio del movimiento open source en IA, vale leer el análisis de DeepSeek V4 y lo que significa para el ecosistema global.

El veredicto al chile

Gemma 4 es el lanzamiento open source más relevante del año para developers en México y LATAM, y no es exageración. Tienes:

  • Un modelo de nivel competitivo con los mejores propietarios, disponible gratis
  • Licencia Apache 2.0 sin restricciones para uso comercial
  • Variantes que corren en un teléfono o una Raspberry Pi sin internet
  • Soporte nativo para español y más de 140 idiomas
  • Multimodal: texto, imagen, video y audio

Lo que no tienes es una app lista para producción. Esto sigue siendo infraestructura: necesitas saber integrar, hacer fine-tuning si tu caso de uso lo requiere, y gestionar el deployment. Pero para quien tiene esas capacidades, las barreras de costo de antes ya no existen.

La pregunta no es si Gemma 4 está bueno. La pregunta es qué vas a construir con él.

¿Ya lo probaste? ¿Tienes un proyecto en mente que antes no era viable por el costo de la API? Cuéntanos en los comentarios, que me interesa saber qué están haciendo los devs en México con esto.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar