ia

Google TurboQuant: de $1 a $0.05 por millón de tokens y el golpe que le metió a los chips de memoria

ia · 7 min de lectura

Google TurboQuant: de $1 a $0.05 por millón de tokens y el golpe que le metió a los chips de memoria

Google comprimió los KV caches de LLMs 6 veces sin perder precisión. Los costos de inferencia bajan 20x y Samsung, SK Hynix y Micron ya sienten el madrazo. Qué significa para devs y startups en México.

Google TurboQuant: de $1 a $0.05 por millón de tokens y el golpe que le metió a los chips de memoria

El paper de TurboQuant se publicó en arXiv el 28 de abril de 2025 (arXiv 2504.19874). Lo que ocurrió el 25 de marzo de 2026 fue que Google Research publicó un blog post destacando el paper que ya estaba disponible públicamente desde hace casi un año., y en cuestión de días hizo caer hasta 6% las acciones de Samsung, SK Hynix, Micron y Kioxia. No fue un modelo nuevo. No fue un anuncio de producto. Fue un algoritmo de compresión de memoria que, en papel, reduce el costo de correr un LLM de $1 a $0.05 por millón de tokens. Veinte veces más barato. Sin reentrenar nada.

Se llama TurboQuant, y si eres dev o tienes una startup que usa IA, necesitas entender qué es lo que pasó aquí.

Qué es TurboQuant y qué comprime exactamente

Para entender el rollo, hay que saber qué es el KV cache. Cada vez que un modelo de lenguaje procesa texto, necesita recordar los cálculos anteriores para no repetirlos. Ese “historial de cálculos” se guarda en memoria en algo llamado key-value cache, y es uno de los cuellos de botella más grandes en la inferencia de LLMs: ocupa un chingo de VRAM.

TurboQuant comprime ese KV cache hasta 3 bits por elemento, sin pérdida de precisión y sin necesitar fine-tuning ni reentrenamiento del modelo. Lo hace en dos etapas:

  1. PolarQuant: rota aleatoriamente los vectores de datos para simplificar su geometría y aplica cuantización estándar. Con esto captura la señal principal usando la mayoría de los bits disponibles.
  2. QJL (Quantized Johnson-Lindenstrauss): con solo 1 bit extra, corrige los errores residuales que dejó la primera etapa usando una transformación matemática llamada Johnson-Lindenstrauss Transform.

El resultado, según los benchmarks publicados por Google Research: 6 veces menos memoria de KV cache y hasta 8 veces más rendimiento en GPUs H100 de Nvidia. Resultados perfectos en todas las pruebas de recuperación de contexto largo (needle-in-a-haystack), que son básicamente el examen más difícil para este tipo de compresión.

El detalle que le duele a la industria del hardware: esto funciona en modelos ya entrenados, sin tocar los pesos. Es como comprimir un archivo ZIP sin que el programa que lo lee note la diferencia.

Los números que importan: de $1 a $0.05

El ejemplo más concreto que dieron los investigadores: DeepSeek-V3.2 MoE tiene 685B parámetros totales (con 37B activados), no 690B corriendo en chips Blackwell con cuantización NVFP4 baja su costo de inferencia de $1 a $0.05 por millón de tokens. Tom’s Hardware confirmó los números técnicos y la reducción de memoria de al menos 6x en H100.

Para un dev independiente o una startup que ya paga $500 o $1,000 dólares al mes en inferencia, eso no es menor. Es la diferencia entre un proyecto viable y uno que te quema el presupuesto a los tres meses.

Y aquí está el link directo con lo que ya discutimos antes en el blog: precisamente en ramaggedon: la IA se está comiendo toda la RAM del mundo y tú vas a pagar la cuenta hablamos de cómo la demanda de memoria HBM estaba disparada y cómo eso encarecía todo el stack de infraestructura. TurboQuant ataca justo ese problema desde el lado del software, no del hardware.

Por qué Samsung, SK Hynix y Micron cayeron

El mercado de chips de memoria lleva meses en modo euforia por la demanda de IA. Los data centers de OpenAI, Google, Meta y compañía necesitan cantidades industriales de HBM (High Bandwidth Memory) y DRAM, y Samsung, SK Hynix y Micron son los que se la rifan en ese mercado.

Cuando Google dijo “oigan, podemos reducir el consumo de memoria 6 veces sin perder nada”, los inversionistas hicieron la cuenta rápido: si los modelos necesitan menos RAM, la demanda de chips de memoria cae. Y así, según CNBC, SK Hynix bajó 6%, Samsung casi 5%, Micron y Kioxia también se fueron para abajo.

¿Es para tanto? Los analistas dicen que no, que el movimiento fue en parte toma de ganancias y que la demanda a largo plazo sigue intacta. Pero el susto fue real: es el segundo “momento DeepSeek” del año, el recordatorio de que en IA las reglas del hardware pueden cambiar de un día para otro por un paper.

Lo que esto significa para devs y startups en México

Seré honesto: TurboQuant todavía no está disponible como herramienta lista para usar. Los papers están en arXiv, la presentación formal es en la conferencia ICLR 2026 (que se celebra en Río de Janeiro), y la implementación de referencia se espera para Q2 2026. O sea, estamos hablando de semanas a pocos meses.

Pero el impacto práctico ya viene:

  • Más tokens por peso: si usas APIs de OpenAI, Anthropic o Google Cloud, y ellos implementan TurboQuant en sus backends, el costo por petición baja aunque no cambie el precio del plan.
  • IA local más accesible: si corres tus propios modelos con Ollama o LM Studio (que es justamente el tema de nuestra guía para correr IA local sin pagar un peso de suscripción), una reducción de 6x en KV cache significa que modelos que antes necesitaban 48GB de VRAM ahora podrían correr en una tarjeta de 8GB. Eso es enorme para quien tiene hardware limitado.
  • Contextos más largos sin pagar más: muchas APIs cobran más caro los contextos largos porque consumen más KV cache. Si el cache es 6 veces más chico, los contextos largos se vuelven mucho más baratos de servir.

Para startups mexicanas que están construyendo sobre APIs de terceros, el impacto inmediato es casi ninguno porque depende de que los proveedores implementen la tecnología. Pero para los que corren su propia infraestructura, la historia es diferente: el mismo presupuesto de cómputo puede servir seis veces más usuarios.

También hay que ponerlo en contexto con lo que pasa en el lado de los modelos chinos: DeepSeek V4 ya viene con 1 trillón de parámetros y costos casi 54 veces más baratos que Claude Opus. La tendencia es clara: la inferencia se está abaratando por todos lados, tanto por los modelos como por las técnicas de compresión como TurboQuant.

La comparación con Pied Piper que nadie pidió pero que es inevitable

TechCrunch anotó que internet ya está comparando TurboQuant con Pied Piper, la empresa ficticia de Silicon Valley que inventó una compresión de datos revolucionaria. Es gracioso pero también revela algo: la industria lleva años asumiendo que más IA requiere inevitablemente más hardware. TurboQuant dice que no necesariamente, que hay espacio enorme para eficiencia en el software antes de tirar más hardware al problema.

Y eso, en México, donde ni Nvidia vende sus chips enterprise directamente ni tenemos acceso sencillo a infraestructura a precios gringos, es exactamente la clase de noticia que nos conviene. La democratización real de la IA no viene de precios de suscripción más bajos: viene de que los modelos sean tan eficientes que se puedan correr en hardware que ya existe.

¿Ya estás usando IA en producción o en proyectos personales? ¿Cuánto pagas de inferencia al mes? Cuéntame en los comentarios si esto te cambia los planes o si todavía sientes que los costos actuales ya son manejables.

Fuentes


Nota: La corrección 2 produce una oración gramaticalmente incompleta (“DeepSeek-V3.2 MoE tiene 685B parámetros totales (con 37B activados), no 690B corriendo en chips Blackwell…”). Si quieres que ajuste la redacción para que fluya correctamente sin cambiar el resto del artículo, dímelo.

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar