gpt-oss: la guía práctica para devs en México que OpenAI no quiere que leas primero
OpenAI lanzó gpt-oss con licencia Apache 2.0: 120B parámetros, gratis para uso comercial y disponible en Hugging Face. Aquí cómo correrlo en tu GPU y cómo se compara con Llama 4 y Gemma 3.
OpenAI lleva años siendo la empresa que se lleva todos los reflectores del mundo de la IA, pero hasta agosto de 2025 tenía un problema enorme: sus modelos no los podías tocar. Pagabas por la API, aceptabas los términos y ya. Punto.
Eso cambió con gpt-oss: dos modelos de código abierto con licencia Apache 2.0, disponibles en Hugging Face, corribles en tu propia máquina, y lo más importante para los devs en México: sin costo de suscripción y sin restricciones para uso comercial. Seis años después de GPT-2 (lanzado en 2019), OpenAI regresó al open source en agosto 2025. Y vale la pena entender qué está ofreciendo en realidad.
Qué son gpt-oss-120b y gpt-oss-20b
No es un modelo, son dos. Y la diferencia entre ellos es la que define si puedes usarlos o no.
gpt-oss-120b: 117 mil millones de parámetros totales, aunque gracias a su arquitectura Mixture of Experts (MoE) solo activa 5.1B por token. Ventana de contexto de 128K tokens. Para correrlo optimizado necesitas una H100 o H200 con 80GB de VRAM. O sea, no es para tu PC de la sala.
gpt-oss-20b: 21B parámetros totales, 3.6B activos por token. Misma arquitectura MoE, mismo tokenizer que GPT-4o. Y aquí está lo interesante: en cuantización MXFP4 corre con 16GB de VRAM. RTX 3090 tiene 24GB, RTX 4090 tiene 24GB, RTX 5080 tiene 16GB, y MacBook Pro M2 puede tener 16GB. El modelo requiere al mínimo 16GB pero funciona con cualquiera de estas opciones. También sirve Google Colab y Kaggle si no tienes GPU propia.
Ambos modelos se lanzaron el 5 de agosto de 2025 bajo licencia Apache 2.0, que significa: puedes usarlos en tu producto comercial, puedes hacer fine-tuning, puedes redistribuir, y no tienes que liberar tu código bajo la misma licencia. Es la licencia open source más permisiva que existe.
También lanzaron versiones de safeguard (clasificadores de seguridad) con la misma licencia, pero esos son para filtrar outputs, no para generar texto.
¿Cómo se compara con Llama 4 y Gemma 3?
La neta, depende de qué quieras hacer.
vs. Meta Llama 4 Maverick: En coding según Codeforces, gpt-oss-120b alcanza 2622 puntos. Sin embargo, no se encontró verificación del score de 2105 específicamente para Llama 4 Maverick en Codeforces. En SWE-bench (benchmark de ingeniería de software) gpt-oss-120b llega al 62.4%. Pero Llama 4 tiene un truco que importa mucho: ventana de contexto de más de un millón de tokens. Si tu tarea es procesar documentos enormes o conversaciones muy largas, Llama 4 sigue siendo rey en ese terreno.
vs. Google Gemma 3: Aquí hay algo que no te van a contar en el press release. El hilo de discusión en Hugging Face del modelo openai/gpt-oss-20b menciona que tiene “about an order of magnitude less broad knowledge than comparably sized models like Gemma 3 27b”. Si necesitas un modelo de propósito general con conocimiento amplio y estás en el rango de 20-27B parámetros, Gemma 3 27B puede responderle mejor. gpt-oss-20b brilla más en coding y razonamiento que en cultura general.
| Modelo | SWE-bench | Codeforces | MMLU-Pro | Contexto |
|---|---|---|---|---|
| gpt-oss-120b | 62.4% | 2622 | 90.0% | 128K |
| gpt-oss-20b | N/D | N/D | N/D | 128K |
| DeepSeek R1 | 65.8% | N/D | 85.0% | 128K |
| Llama 4 Maverick | N/D | 2105 | N/D | 1M+ |
Ojo: si ya leíste nuestro artículo sobre DeepSeek V4 y sus 1 trillón de parámetros, el panorama open source es más competido que nunca. gpt-oss no es el modelo más poderoso de esa categoría, pero sí tiene el nombre más fácil de vender a un cliente.
Cómo empezar en Hugging Face (sin complicarte)
La ruta más rápida si no tienes GPU propia: usar los Inference Providers de Hugging Face. Cerebras ofrece el throughput más alto con 2,224 tokens por segundo, y puedes llamar al modelo con la API compatible con OpenAI:
from openai import OpenAI
client = OpenAI(
base_url="https://router.huggingface.co/v1",
api_key="TU_HF_TOKEN"
)
completion = client.chat.completions.create(
model="openai/gpt-oss-120b:cerebras",
messages=[{"role": "user", "content": "¿Qué hace este código?"}]
)
print(completion.choices[0].message.content)
Si quieres correrlo local (gpt-oss-20b en RTX 4090 o Mac M2):
pip install --upgrade transformers kernels accelerate "triton>=3.4"
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "openai/gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id, device_map="auto", torch_dtype="auto"
)
messages = [{"role": "user", "content": "Explica este error de Python"}]
inputs = tokenizer.apply_chat_template(
messages, add_generation_prompt=True,
return_tensors="pt", return_dict=True
).to(model.device)
generated = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))
También puedes correrlo con Ollama (ollama run gpt-oss) o LM Studio si prefieres interfaz gráfica. Si ya tienes experiencia con Ollama, la guía que hicimos de cómo correr tu propia IA local en 2026 con Ollama y LM Studio te sirve exactamente para este modelo.
Para el 120B necesitas vLLM con tensor parallelism:
vllm serve openai/gpt-oss-120b --tensor-parallel-size 4
Eso requiere 4 GPUs de 40GB o 2 de 80GB. No es opción para todos, pero si estás en un equipo con acceso a infra de nube, es perfectamente viable.
Precios reales si no tienes GPU
Si quieres usar la API sin hardware propio:
- Via Hugging Face Inference Providers: entre $0.08 y $1.10 USD por millón de tokens, dependiendo del proveedor
- Cerebras: el más rápido, ~2,200 tokens/segundo
- DeepInfra: generalmente los precios más bajos
- Northflank (self-hosted 2x H100): $5.48 USD/hora, equivale a unos $0.12/1M tokens de entrada y $2.42/1M de salida a carga constante
En pesos, con el tipo de cambio actual, las APIs más baratas pueden salirte desde $1.50 a $3 MXN por millón de tokens. Para proyectos pequeños y medianos es una fracción de lo que costaba usar GPT-4o.
Las limitaciones que nadie está contando
Aquí hay que ser honesto porque OpenAI es muy buena para el marketing.
Primero: es open-weight, no open-source. Los pesos del modelo están disponibles pero el código de entrenamiento y los datos no. La distinción importa si te interesa la transparencia real de cómo fue entrenado.
Segundo: según reporta Infobae en su análisis del lanzamiento, gpt-oss muestra tasas de alucinación por encima de los modelos propietarios de OpenAI. No es el modelo más confiable para tareas críticas donde necesitas precisión alta.
Tercero: es solo texto. Sin vision, sin audio, sin herramientas nativas. Para eso sigues necesitando GPT-5.4 o los modelos multimodales de la competencia.
Cuarto: en SWE-bench el 62.4% de gpt-oss-120b está por debajo del 68.1% de o4-mini en SWE-Bench Verified. Si ya tienes un workflow con o4-mini que funciona bien, no hay razón obvia para migrar a self-hosted solo por el nombre.
Y quinto, quizá el más ignorado: no está disponible en la API de OpenAI. Si quieres usarlo, o pagas a un tercero o lo corres tú mismo. OpenAI no monetiza gpt-oss directamente por ahora.
Por qué sí importa para devs en México
A pesar de todo lo anterior, la licencia Apache 2.0 cambia el juego para startups y devs independientes en México de maneras concretas:
Puedes hacer fine-tuning para tu caso de uso específico y vender el resultado como producto sin devolverle nada a OpenAI. Eso era imposible con cualquier modelo propietario.
Puedes correr gpt-oss-20b en una RTX 4090 que hoy puedes conseguir en Mercado Libre desde $25,000 a $35,000 pesos, o en una MacBook Pro M2 que ya tienes. Sin costo de API recurrente.
El nombre “OpenAI” en tu pitch deck puede ser más fácil de vender a un cliente corporativo que explicar qué es Llama o Gemma. No debería ser así, pero así funciona el mundo.
Para agentes de código y asistentes de programación, que es donde más brilla, puedes combinarlo con las herramientas que ya comparamos en nuestra guía de Claude Code vs Cursor vs Copilot: gpt-oss puede ser el backend de un agente propio sin pagar por token.
El veredicto al chile
gpt-oss no es el modelo más poderoso del mercado open source. Eso es Llama 4 en contexto largo, DeepSeek en razonamiento complejo, y Gemma 3 en conocimiento general. Pero es el modelo con el ecosistema más familiar para devs que ya vienen del mundo OpenAI, con la licencia más permisiva, y con un camino claro hacia producción.
Para un dev en México que quiere construir un producto real sin depender de APIs de pago: gpt-oss-20b en tu máquina es una opción legítima. Para un equipo que quiere el 120B sin gastar en H100s: las APIs de terceros están en rangos de precio razonables.
Lo que sí está una chimba es que finalmente podamos tomar lo que OpenAI construyó y hacerlo nuestro. Después de siete años de puertas cerradas, aunque sea con las condiciones que pusieron, ese cambio no es menor.
¿Ya lo estás usando? ¿En qué proyecto? Cuéntanos en comentarios.
Fuentes
- Introducing gpt-oss | OpenAI
- Welcome GPT OSS | Hugging Face Blog
- openai/gpt-oss-120b en Hugging Face
- openai/gpt-oss-20b en Hugging Face
- OpenAI transforma la IA con GPT-5 y GPT-OSS | Infobae
- gpt-oss de OpenAI: Análisis | Javadex.es
- Self-host gpt-oss en Northflank | Northflank Blog
- OpenAI gpt-oss en Azure AI Foundry | Microsoft Azure Blog
- OpenAI’s New Model Challenges Meta’s Open-Source Dominance | IEEE Spectrum
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado
Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.
OpenAI está corriendo contra el reloj: GPT-5.5 'Spud' terminó su entrenamiento y quiere llegar antes que Claude Mythos
OpenAI completó el preentrenamiento de GPT-5.5 (Spud) y Sam Altman dice que sale 'en semanas'. La carrera contra Claude Mythos de Anthropic ya empezó, y para los devs mexicanos el momento de elegir bando se acerca.
OpenAI va por el trono: $25 mil millones al año, el IPO del siglo y ChatGPT ya no es solo un chat
OpenAI cruzó los $25 mil millones en ingresos anualizados en solo 39 meses y prepara el IPO más grande de la historia a $1 billón de valuación. Qué significa esto para empresas y startups en México.