ia 1 de abril de 2026 · 8 min de lectura

gpt-oss: la guía práctica para devs en México que OpenAI no quiere que leas primero

OpenAI lanzó gpt-oss con licencia Apache 2.0: 120B parámetros, gratis para uso comercial y disponible en Hugging Face. Aquí cómo correrlo en tu GPU y cómo se compara con Llama 4 y Gemma 3.

Al Chile Team

Al Chile Tech

gpt-oss: la guía práctica para devs en México que OpenAI no quiere que leas primero

OpenAI lleva años siendo la empresa que se lleva todos los reflectores del mundo de la IA, pero hasta agosto de 2025 tenía un problema enorme: sus modelos no los podías tocar. Pagabas por la API, aceptabas los términos y ya. Punto.

Eso cambió con gpt-oss: dos modelos de código abierto con licencia Apache 2.0, disponibles en Hugging Face, corribles en tu propia máquina, y lo más importante para los devs en México: sin costo de suscripción y sin restricciones para uso comercial. Seis años después de GPT-2 (lanzado en 2019), OpenAI regresó al open source en agosto 2025. Y vale la pena entender qué está ofreciendo en realidad.

Qué son gpt-oss-120b y gpt-oss-20b

No es un modelo, son dos. Y la diferencia entre ellos es la que define si puedes usarlos o no.

gpt-oss-120b: 117 mil millones de parámetros totales, aunque gracias a su arquitectura Mixture of Experts (MoE) solo activa 5.1B por token. Ventana de contexto de 128K tokens. Para correrlo optimizado necesitas una H100 o H200 con 80GB de VRAM. O sea, no es para tu PC de la sala.

gpt-oss-20b: 21B parámetros totales, 3.6B activos por token. Misma arquitectura MoE, mismo tokenizer que GPT-4o. Y aquí está lo interesante: en cuantización MXFP4 corre con 16GB de VRAM. RTX 3090 tiene 24GB, RTX 4090 tiene 24GB, RTX 5080 tiene 16GB, y MacBook Pro M2 puede tener 16GB. El modelo requiere al mínimo 16GB pero funciona con cualquiera de estas opciones. También sirve Google Colab y Kaggle si no tienes GPU propia.

Ambos modelos se lanzaron el 5 de agosto de 2025 bajo licencia Apache 2.0, que significa: puedes usarlos en tu producto comercial, puedes hacer fine-tuning, puedes redistribuir, y no tienes que liberar tu código bajo la misma licencia. Es la licencia open source más permisiva que existe.

También lanzaron versiones de safeguard (clasificadores de seguridad) con la misma licencia, pero esos son para filtrar outputs, no para generar texto.

¿Cómo se compara con Llama 4 y Gemma 3?

La neta, depende de qué quieras hacer.

vs. Meta Llama 4 Maverick: En coding según Codeforces, gpt-oss-120b alcanza 2622 puntos. Sin embargo, no se encontró verificación del score de 2105 específicamente para Llama 4 Maverick en Codeforces. En SWE-bench (benchmark de ingeniería de software) gpt-oss-120b llega al 62.4%. Pero Llama 4 tiene un truco que importa mucho: ventana de contexto de más de un millón de tokens. Si tu tarea es procesar documentos enormes o conversaciones muy largas, Llama 4 sigue siendo rey en ese terreno.

vs. Google Gemma 3: Aquí hay algo que no te van a contar en el press release. El hilo de discusión en Hugging Face del modelo openai/gpt-oss-20b menciona que tiene “about an order of magnitude less broad knowledge than comparably sized models like Gemma 3 27b”. Si necesitas un modelo de propósito general con conocimiento amplio y estás en el rango de 20-27B parámetros, Gemma 3 27B puede responderle mejor. gpt-oss-20b brilla más en coding y razonamiento que en cultura general.

Modelo	SWE-bench	Codeforces	MMLU-Pro	Contexto
gpt-oss-120b	62.4%	2622	90.0%	128K
gpt-oss-20b	N/D	N/D	N/D	128K
DeepSeek R1	65.8%	N/D	85.0%	128K
Llama 4 Maverick	N/D	2105	N/D	1M+

Ojo: si ya leíste nuestro artículo sobre DeepSeek V4 y sus 1 trillón de parámetros, el panorama open source es más competido que nunca. gpt-oss no es el modelo más poderoso de esa categoría, pero sí tiene el nombre más fácil de vender a un cliente.

Cómo empezar en Hugging Face (sin complicarte)

La ruta más rápida si no tienes GPU propia: usar los Inference Providers de Hugging Face. Cerebras ofrece el throughput más alto con 2,224 tokens por segundo, y puedes llamar al modelo con la API compatible con OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key="TU_HF_TOKEN"
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b:cerebras",
    messages=[{"role": "user", "content": "¿Qué hace este código?"}]
)
print(completion.choices[0].message.content)

Si quieres correrlo local (gpt-oss-20b en RTX 4090 o Mac M2):

pip install --upgrade transformers kernels accelerate "triton>=3.4"

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openai/gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, device_map="auto", torch_dtype="auto"
)

messages = [{"role": "user", "content": "Explica este error de Python"}]
inputs = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True,
    return_tensors="pt", return_dict=True
).to(model.device)

generated = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))

También puedes correrlo con Ollama (ollama run gpt-oss) o LM Studio si prefieres interfaz gráfica. Si ya tienes experiencia con Ollama, la guía que hicimos de cómo correr tu propia IA local en 2026 con Ollama y LM Studio te sirve exactamente para este modelo.

Para el 120B necesitas vLLM con tensor parallelism:

vllm serve openai/gpt-oss-120b --tensor-parallel-size 4

Eso requiere 4 GPUs de 40GB o 2 de 80GB. No es opción para todos, pero si estás en un equipo con acceso a infra de nube, es perfectamente viable.

Precios reales si no tienes GPU

Si quieres usar la API sin hardware propio:

Via Hugging Face Inference Providers: entre $0.08 y $1.10 USD por millón de tokens, dependiendo del proveedor
Cerebras: el más rápido, ~2,200 tokens/segundo
DeepInfra: generalmente los precios más bajos
Northflank (self-hosted 2x H100): $5.48 USD/hora, equivale a unos $0.12/1M tokens de entrada y $2.42/1M de salida a carga constante

En pesos, con el tipo de cambio actual, las APIs más baratas pueden salirte desde $1.50 a $3 MXN por millón de tokens. Para proyectos pequeños y medianos es una fracción de lo que costaba usar GPT-4o.

Las limitaciones que nadie está contando

Aquí hay que ser honesto porque OpenAI es muy buena para el marketing.

Primero: es open-weight, no open-source. Los pesos del modelo están disponibles pero el código de entrenamiento y los datos no. La distinción importa si te interesa la transparencia real de cómo fue entrenado.

Segundo: según reporta Infobae en su análisis del lanzamiento, gpt-oss muestra tasas de alucinación por encima de los modelos propietarios de OpenAI. No es el modelo más confiable para tareas críticas donde necesitas precisión alta.

Tercero: es solo texto. Sin vision, sin audio, sin herramientas nativas. Para eso sigues necesitando GPT-5.4 o los modelos multimodales de la competencia.

Cuarto: en SWE-bench el 62.4% de gpt-oss-120b está por debajo del 68.1% de o4-mini en SWE-Bench Verified. Si ya tienes un workflow con o4-mini que funciona bien, no hay razón obvia para migrar a self-hosted solo por el nombre.

Y quinto, quizá el más ignorado: no está disponible en la API de OpenAI. Si quieres usarlo, o pagas a un tercero o lo corres tú mismo. OpenAI no monetiza gpt-oss directamente por ahora.

Por qué sí importa para devs en México

A pesar de todo lo anterior, la licencia Apache 2.0 cambia el juego para startups y devs independientes en México de maneras concretas:

Puedes hacer fine-tuning para tu caso de uso específico y vender el resultado como producto sin devolverle nada a OpenAI. Eso era imposible con cualquier modelo propietario.

Puedes correr gpt-oss-20b en una RTX 4090 que hoy puedes conseguir en Mercado Libre desde $25,000 a $35,000 pesos, o en una MacBook Pro M2 que ya tienes. Sin costo de API recurrente.

El nombre “OpenAI” en tu pitch deck puede ser más fácil de vender a un cliente corporativo que explicar qué es Llama o Gemma. No debería ser así, pero así funciona el mundo.

Para agentes de código y asistentes de programación, que es donde más brilla, puedes combinarlo con las herramientas que ya comparamos en nuestra guía de Claude Code vs Cursor vs Copilot: gpt-oss puede ser el backend de un agente propio sin pagar por token.

El veredicto al chile

gpt-oss no es el modelo más poderoso del mercado open source. Eso es Llama 4 en contexto largo, DeepSeek en razonamiento complejo, y Gemma 3 en conocimiento general. Pero es el modelo con el ecosistema más familiar para devs que ya vienen del mundo OpenAI, con la licencia más permisiva, y con un camino claro hacia producción.

Para un dev en México que quiere construir un producto real sin depender de APIs de pago: gpt-oss-20b en tu máquina es una opción legítima. Para un equipo que quiere el 120B sin gastar en H100s: las APIs de terceros están en rangos de precio razonables.

Lo que sí está una chimba es que finalmente podamos tomar lo que OpenAI construyó y hacerlo nuestro. Después de siete años de puertas cerradas, aunque sea con las condiciones que pusieron, ese cambio no es menor.

¿Ya lo estás usando? ¿En qué proyecto? Cuéntanos en comentarios.

Fuentes

¡Comparte!

#openai #open-source #gpt-oss #llm #hugging-face #inteligencia-artificial

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar

ia 26 abr 2026 · 3 min

Meta traicionó el open source: Muse Spark es su primer modelo cerrado y le está cobrando la factura a millones de devs

Meta lanzó Muse Spark, su primer modelo de IA propietario y cerrado, rompiendo con años de filosofía open source. Llega tarde, cuesta más y deja a los devs de LATAM en la incertidumbre.

Leer

ia 20 abr 2026 · 3 min

Microsoft ya no necesita a OpenAI: lanzó 3 modelos de IA propios y el más barato supera a Whisper en 25 idiomas

MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 ya están en Microsoft Foundry. Son más baratos que OpenAI y Google, y el de transcripción aplasta a Whisper con la mitad de GPUs. Esto es la declaración formal de independencia de Microsoft.

Leer

ia 19 abr 2026 · 3 min

GPT-5.4-Cyber ya está disponible: cómo acceder desde México y qué puede hacer que ChatGPT normal no puede

OpenAI lanzó GPT-5.4-Cyber el 14 de abril para equipos de ciberseguridad verificados. Hace reverse engineering de binarios sin código fuente y tiene menor umbral de rechazo para trabajo defensivo legítimo. Te explico cómo acceder desde México.

Leer

Más de ia Todas las categorías