ia

Nemotron 3 Nano Omni: el modelo de IA abierto de Nvidia que ve, escucha y razona con 25GB de RAM

ia · 6 min de lectura

Nemotron 3 Nano Omni: el modelo de IA abierto de Nvidia que ve, escucha y razona con 25GB de RAM

Nvidia lanzó ayer Nemotron 3 Nano Omni, un modelo open de 30B parámetros con MoE que unifica video, audio e imagen en un solo modelo y puedes correr en tu propia máquina.

Nemotron 3 Nano Omni: el modelo de IA abierto de Nvidia que ve, escucha y razona con 25GB de RAM

Ayer 28 de abril, Nvidia soltó algo que a los devs nos debería importar bastante: Nemotron 3 Nano Omni, un modelo de IA abierto que en una sola arquitectura lee documentos, entiende audio, analiza video y razona sobre todo eso junto. Sin pagar suscripción, sin depender de APIs de terceros, y con la posibilidad de correrlo en tu propia máquina si tienes el hardware mínimo.

No es el modelo más grande que existe, pero es probablemente el más eficiente de su categoría. Y eso importa más de lo que parece.

Qué pedo con la arquitectura MoE

El truco de Nemotron 3 Nano Omni está en cómo está construido. Tiene 30 mil millones de parámetros totales, pero solo activa 3 mil millones por cada forward pass gracias a una arquitectura MoE (Mixture of Experts). En términos prácticos: no mueve todo el modelo cada vez que le haces una pregunta, solo la parte que necesita.

Además combina capas Mamba (eficientes para secuencias largas y memoria) con capas Transformer (precisas para razonamiento), lo que Nvidia llama un backbone Mamba-Transformer Híbrido. El resultado es una ventana de contexto de 256K tokens, suficiente para procesar videos largos, múltiples documentos o conversaciones extensas sin que el modelo pierda el hilo.

Para los que ya siguieron el tema de modelos grandes: esto es similar a la estrategia que usó DeepSeek pero aplicada al mundo multimodal. Si quieres ver qué tan lejos llegó ese enfoque, chécate DeepSeek V4: el monstruo chino de 1 trillón de parámetros que no necesita chips de Nvidia.

Qué puede hacer: ve, escucha y razona

Nemotron 3 Nano Omni acepta texto, imágenes, audio, video y documentos como entrada. La salida siempre es texto. Suena limitado, pero para agentes de IA eso es exactamente lo que necesitas: percepción multimodal con razonamiento que produce acciones.

Los casos de uso que Nvidia presenta son bastante concretos:

  • Computer use agents: el modelo puede ver una grabación de pantalla en full HD (1920x1080 nativo) y entender qué está pasando, sin reducir la resolución
  • Inteligencia documental: analiza PDFs con tablas, gráficas y texto mezclado, no solo texto plano
  • Servicio al cliente por voz y video: procesa audio en tiempo real con su encoder Parakeet-TDT-0.6B-v2 integrado
  • Análisis de video: razona sobre líneas de tiempo de video con hasta 256 frames por petición

Según el blog técnico de Nvidia, el modelo lidera 6 leaderboards en document intelligence (MMlongbench-Doc, OCRBenchV2) y en comprensión de audio y video (WorldSense, VoiceBench). Y tiene 9x más throughput que otros modelos open omni comparables con la misma interactividad. Ese número viene de benchmarks de MediaPerf, donde midieron costo y velocidad de inferencia para tagging de video.

Cómo correrlo: el rango es amplio

Aquí viene lo que a muchos devs mexicanos les va a importar: los requerimientos de hardware.

VersiónTamañoVRAM/RAM necesariaHardware recomendado
BF16 (completa)~62 GB80 GB+ VRAMA100 / H100
FP8~33 GB40 GB+ VRAMA40 / L40S
NVFP4~21 GB24 GB VRAMRTX 4090
GGUF Q4 (CPU)~25 GB RAMRAM del sistemaCualquier PC con 32 GB

La versión más accesible para devs con hardware normal es la GGUF Q4 cuantizada por Unsloth: corre con 25GB de RAM del sistema, sin necesitar GPU dedicada (aunque va más lento). Para los que tienen una RTX 4090 con 24GB, la versión NVFP4 es la opción seria: más rápida y con soporte oficial de Nvidia.

Advertencia importante: no uses CUDA 13.2 todavía. Nvidia está trabajando en un fix para un bug que genera outputs con basura.

Opción 1: Unsloth Studio (la más fácil, sin drama)

Si ya leíste nuestra guía para correr tu propia IA local con Ollama y LM Studio, esto es similar pero con una UI específica de Unsloth. Instalas, corres el setup, abres http://localhost:8888, buscas el modelo y lo descargas. Compatible con Mac, Windows y Linux.

Opción 2: vLLM (para producción)

Si vas a montar algo serio, vLLM 0.20.0+ es el runtime oficial que recomienda Nvidia:

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4 \
  --tensor-parallel-size 1 \
  --max-model-len 131072 \
  --video-pruning-rate 0.5 \
  --reasoning-parser nemotron_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

Después lo consumes con la API compatible con OpenAI desde cualquier cliente.

Opción 3: probar gratis en OpenRouter

Si no quieres batallar con la instalación ahorita, el modelo está disponible gratis en OpenRouter. También en build.nvidia.com como NIM microservice y en Amazon SageMaker JumpStart si tu empresa ya vive en AWS.

Para qué sirve en un contexto de agentes

El caso más interesante es construir agentes que realmente perciben el entorno. Hasta ahora, si querías un agente que entendiera lo que pasa en pantalla, transcribiera audio del usuario, analizara un PDF y respondiera, necesitabas cuatro modelos distintos encadenados: un modelo de visión, un ASR, un LLM para razonamiento y algo que pegara todo.

Con Nemotron 3 Nano Omni, toda esa cadena corre en un solo modelo con un contexto unificado. No hay que serializar y deserializar entre pasos, no hay latencia acumulada, no hay que pagar cuatro APIs distintas.

Justo en ese territorio de agentes autónomos es donde está la acción ahora mismo. Si te interesa ver cómo otros están atacando ese problema, chécate cómo Claude sacó su propio OpenClaw para ejecutar tareas desde el celular.

Dónde descargarlo

Todo con pesos abiertos, datasets y técnicas de entrenamiento disponibles. No es un modelo que solo puedes usar via API: puedes agarrar los pesos, hacer fine-tuning y desplegarlo donde quieras.

Al chile: ¿vale la pena?

Si eres dev y estás construyendo agentes o herramientas que necesitan procesar más de un tipo de input, sí, vale la pena hacerle caso. La propuesta de eficiencia es real: 9x de throughput sobre modelos open omni comparables es un número que se siente en producción y en el costo de infraestructura.

Para un dev en México que quiere experimentar, la barrera de entrada es razonable. Con 25GB de RAM puedes probar la versión CPU, sin necesitar una GPU de 80 mil pesos. Si ya tienes una RTX 4090 o RTX 5090, la versión NVFP4 es prácticamente plug-and-play.

Lo que todavía no está claro es qué tan bien se comporta en español en benchmarks de habla, dado que los leaderboards publicados están dominados por inglés. Eso hay que probarlo directo, que es justamente lo que deberías hacer si te interesa para un proyecto.

¿Ya le entraste o vas a esperar a ver cómo le va a la comunidad? Cuéntanos en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar