ia

Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado

ia · 5 min de lectura (actualizado)

Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado

Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.

Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado

Google acaba de soltar algo que importa de verdad para devs y startups mexicanas: Gemma 4, cuatro modelos de IA open-weight lanzados el 2 de abril bajo licencia Apache 2.0 sin restricciones comerciales. Sin límite de usuarios activos, sin cláusulas de uso aceptable que te amarren las manos, sin tener que pedirle permiso a Google cada que tu producto crece. Los descargas, los despliegas, los modificas, y listo.

Esto no es lo mismo que el artículo de Gemini 3.1 Flash-Lite a $0.25 por millón de tokens que salió la semana pasada. Aquello es un servicio en la nube de Google. Gemma 4 es tuyo: corre en tu servidor, en tu nube, en tu laptop o incluso en un teléfono. Sin API keys, sin facturas por token, sin dependencia de nadie.

Cuatro modelos para cada caso de uso

La familia Gemma 4 viene en cuatro tamaños:

ModeloParámetrosParámetros activosContextoPara qué sirve
E2B2.3B efectivos2.3B128K tokensMóviles, edge, IoT
E4B4.5B efectivos4.5B128K tokensLaptops, SBCs, dispositivos limitados
26B A4B (MoE)26B totales3.8B256K tokensServidores medianos, GPU de 24GB
31B denso31B31B256K tokensProducción seria, H100

El truco del 26B es que usa Mixture of Experts: tiene 26 mil millones de parámetros en total, pero por cada token que procesa solo activa 3.8B. El resultado es que rinde como un modelo grandote pero consume recursos como uno chico. Es el punto dulce de toda la familia.

Y los números en benchmarks no son de adorno: según el anuncio oficial en el blog de Google DeepMind, el 31B score 89.2% en AIME 2026 (matemáticas avanzadas), 84.3% en GPQA Diamond (ciencias) y 80% en LiveCodeBench (código). Para contexto, la generación anterior Gemma 3 sacaba 20.8% en AIME. No es una actualización menor, es un salto de generación completo.

El 31B ya está rankeado #3 entre todos los modelos abiertos en la Arena AI de texto. El 26B MoE está en el #6, y eso activando solo 4B de parámetros.

Lo que cambia con Apache 2.0

Las versiones anteriores de Gemma tenían restricciones: límites de usuarios activos por mes, cláusulas de uso aceptable que prohibían ciertos verticales, condiciones que te hacían depender del criterio de Google. Apache 2.0 elimina todo eso.

¿Qué significa en la práctica? Que una startup mexicana puede:

  • Desplegar Gemma 4 en su propio servidor o en Hetzner/DigitalOcean/AWS sin pagar por token
  • Hacer fine-tuning con sus propios datos de negocio y quedarse con el modelo ajustado
  • Integrar el modelo en productos comerciales sin restricciones de escala
  • Distribuir versiones modificadas dentro del equipo o a clientes

Si ya leíste nuestra guía para correr IA local con Ollama y LM Studio, esto te va a sonar familiar: mismo concepto, pero ahora con modelos que realmente pelean en el nivel alto.

Multimodal de verdad, no de a mentiras

Todos los modelos de Gemma 4 entienden texto e imágenes. Los modelos edge (E2B y E4B) además procesan audio. Los modelos grandes (26B y 31B) entienden video hasta 60 segundos. Contexto de 256K tokens en los modelos grandes significa que puedes meterle documentos enteros, transcripciones largas, bases de código completas.

Capacidades concretas verificadas:

  • Análisis de imágenes con detección de objetos y OCR de escritura a mano
  • Llamadas a funciones nativas (function calling) sin trucos raros
  • Más de 140 idiomas, incluido el español con buena cobertura
  • Comprensión de gráficos, diagramas y documentos escaneados
  • Razonamiento con pasos de pensamiento largos

Para una empresa que quiere procesar facturas, contratos, imágenes de productos o transcripciones de llamadas sin que sus datos salgan de su infraestructura, esto es una chimba.

Cómo correrlo ahorita mismo

La forma más fácil es con Ollama. Tres comandos y tienes el modelo corriendo:

# E4B para laptops con 8GB+ de RAM
ollama pull gemma4

# 26B MoE para GPUs con 24GB VRAM
ollama pull gemma4:26b

# 31B denso para producción seria
ollama pull gemma4:31b

También está disponible en:

  • Hugging Face: colección completa de Gemma 4 con checkpoints base e instruction-tuned
  • Google AI Studio: para pruebas rápidas sin instalar nada
  • Kaggle: incluido en notebooks
  • Vertex AI: para despliegue empresarial en GCP

Para quienes quieran afinar el modelo con datos propios, hay soporte en TRL y Unsloth Studio desde día uno. GGUF para llama.cpp y ONNX para dispositivos móviles también están listos.

¿Qué hardware necesitas?

El E4B corre fluido con 16GB de RAM en modo Q8 (cuantización completa). Si tienes una GPU NVIDIA de 24GB como una RTX 3090 o 4090, el 26B MoE cuantizado a 4 bits entra sin problema y el rendimiento es lo más cercano que vas a encontrar a GPT-4 class sin pagar un centavo por token. El 31B denso pide una H100 de 80GB para correr sin cuantizar, pero cuantizado a 4 bits baja a 24GB también.

Para una startup que ya paga servidores, el cálculo es directo: cuanto pagas mensualmente en API calls versus un servidor con una 4090 o dos. En volúmenes medianos, los modelos locales ya ganan.

El contexto más amplio: Google vs los modelos chinos

The Register señala que Google lanzó Gemma 4 directamente como respuesta a los modelos chinos de código abierto: Qwen, DeepSeek, y compañía. Es una movida estratégica: si el ecosistema open-source se llena de modelos de DeepSeek y Alibaba, Google pierde influencia sobre cómo se construye IA en el mundo. Con Gemma 4 bajo Apache 2.0 y con benchmarks competitivos, la pelea se vuelve interesante.

Para nosotros los usuarios, la competencia es pura ganancia. Que Google tenga que soltar sus mejores modelos abiertos porque si no DeepSeek se come el mercado… no hay queja posible.

¿Ya tienes suficiente VRAM para probar el 26B MoE? ¿O planeas armar algo con los modelos edge en hardware más modesto? Suéltalo en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar