Google TurboQuant: de $1 a $0.05 por millón de tokens y el golpe que le metió a los chips de memoria
Google comprimió los KV caches de LLMs 6 veces sin perder precisión. Los costos de inferencia bajan 20x y Samsung, SK Hynix y Micron ya sienten el madrazo. Qué significa para devs y startups en México.
El paper de TurboQuant se publicó en arXiv el 28 de abril de 2025 (arXiv 2504.19874). Lo que ocurrió el 25 de marzo de 2026 fue que Google Research publicó un blog post destacando el paper que ya estaba disponible públicamente desde hace casi un año., y en cuestión de días hizo caer hasta 6% las acciones de Samsung, SK Hynix, Micron y Kioxia. No fue un modelo nuevo. No fue un anuncio de producto. Fue un algoritmo de compresión de memoria que, en papel, reduce el costo de correr un LLM de $1 a $0.05 por millón de tokens. Veinte veces más barato. Sin reentrenar nada.
Se llama TurboQuant, y si eres dev o tienes una startup que usa IA, necesitas entender qué es lo que pasó aquí.
Qué es TurboQuant y qué comprime exactamente
Para entender el rollo, hay que saber qué es el KV cache. Cada vez que un modelo de lenguaje procesa texto, necesita recordar los cálculos anteriores para no repetirlos. Ese “historial de cálculos” se guarda en memoria en algo llamado key-value cache, y es uno de los cuellos de botella más grandes en la inferencia de LLMs: ocupa un chingo de VRAM.
TurboQuant comprime ese KV cache hasta 3 bits por elemento, sin pérdida de precisión y sin necesitar fine-tuning ni reentrenamiento del modelo. Lo hace en dos etapas:
- PolarQuant: rota aleatoriamente los vectores de datos para simplificar su geometría y aplica cuantización estándar. Con esto captura la señal principal usando la mayoría de los bits disponibles.
- QJL (Quantized Johnson-Lindenstrauss): con solo 1 bit extra, corrige los errores residuales que dejó la primera etapa usando una transformación matemática llamada Johnson-Lindenstrauss Transform.
El resultado, según los benchmarks publicados por Google Research: 6 veces menos memoria de KV cache y hasta 8 veces más rendimiento en GPUs H100 de Nvidia. Resultados perfectos en todas las pruebas de recuperación de contexto largo (needle-in-a-haystack), que son básicamente el examen más difícil para este tipo de compresión.
El detalle que le duele a la industria del hardware: esto funciona en modelos ya entrenados, sin tocar los pesos. Es como comprimir un archivo ZIP sin que el programa que lo lee note la diferencia.
Los números que importan: de $1 a $0.05
El ejemplo más concreto que dieron los investigadores: DeepSeek-V3.2 MoE tiene 685B parámetros totales (con 37B activados), no 690B corriendo en chips Blackwell con cuantización NVFP4 baja su costo de inferencia de $1 a $0.05 por millón de tokens. Tom’s Hardware confirmó los números técnicos y la reducción de memoria de al menos 6x en H100.
Para un dev independiente o una startup que ya paga $500 o $1,000 dólares al mes en inferencia, eso no es menor. Es la diferencia entre un proyecto viable y uno que te quema el presupuesto a los tres meses.
Y aquí está el link directo con lo que ya discutimos antes en el blog: precisamente en ramaggedon: la IA se está comiendo toda la RAM del mundo y tú vas a pagar la cuenta hablamos de cómo la demanda de memoria HBM estaba disparada y cómo eso encarecía todo el stack de infraestructura. TurboQuant ataca justo ese problema desde el lado del software, no del hardware.
Por qué Samsung, SK Hynix y Micron cayeron
El mercado de chips de memoria lleva meses en modo euforia por la demanda de IA. Los data centers de OpenAI, Google, Meta y compañía necesitan cantidades industriales de HBM (High Bandwidth Memory) y DRAM, y Samsung, SK Hynix y Micron son los que se la rifan en ese mercado.
Cuando Google dijo “oigan, podemos reducir el consumo de memoria 6 veces sin perder nada”, los inversionistas hicieron la cuenta rápido: si los modelos necesitan menos RAM, la demanda de chips de memoria cae. Y así, según CNBC, SK Hynix bajó 6%, Samsung casi 5%, Micron y Kioxia también se fueron para abajo.
¿Es para tanto? Los analistas dicen que no, que el movimiento fue en parte toma de ganancias y que la demanda a largo plazo sigue intacta. Pero el susto fue real: es el segundo “momento DeepSeek” del año, el recordatorio de que en IA las reglas del hardware pueden cambiar de un día para otro por un paper.
Lo que esto significa para devs y startups en México
Seré honesto: TurboQuant todavía no está disponible como herramienta lista para usar. Los papers están en arXiv, la presentación formal es en la conferencia ICLR 2026 (que se celebra en Río de Janeiro), y la implementación de referencia se espera para Q2 2026. O sea, estamos hablando de semanas a pocos meses.
Pero el impacto práctico ya viene:
- Más tokens por peso: si usas APIs de OpenAI, Anthropic o Google Cloud, y ellos implementan TurboQuant en sus backends, el costo por petición baja aunque no cambie el precio del plan.
- IA local más accesible: si corres tus propios modelos con Ollama o LM Studio (que es justamente el tema de nuestra guía para correr IA local sin pagar un peso de suscripción), una reducción de 6x en KV cache significa que modelos que antes necesitaban 48GB de VRAM ahora podrían correr en una tarjeta de 8GB. Eso es enorme para quien tiene hardware limitado.
- Contextos más largos sin pagar más: muchas APIs cobran más caro los contextos largos porque consumen más KV cache. Si el cache es 6 veces más chico, los contextos largos se vuelven mucho más baratos de servir.
Para startups mexicanas que están construyendo sobre APIs de terceros, el impacto inmediato es casi ninguno porque depende de que los proveedores implementen la tecnología. Pero para los que corren su propia infraestructura, la historia es diferente: el mismo presupuesto de cómputo puede servir seis veces más usuarios.
También hay que ponerlo en contexto con lo que pasa en el lado de los modelos chinos: DeepSeek V4 ya viene con 1 trillón de parámetros y costos casi 54 veces más baratos que Claude Opus. La tendencia es clara: la inferencia se está abaratando por todos lados, tanto por los modelos como por las técnicas de compresión como TurboQuant.
La comparación con Pied Piper que nadie pidió pero que es inevitable
TechCrunch anotó que internet ya está comparando TurboQuant con Pied Piper, la empresa ficticia de Silicon Valley que inventó una compresión de datos revolucionaria. Es gracioso pero también revela algo: la industria lleva años asumiendo que más IA requiere inevitablemente más hardware. TurboQuant dice que no necesariamente, que hay espacio enorme para eficiencia en el software antes de tirar más hardware al problema.
Y eso, en México, donde ni Nvidia vende sus chips enterprise directamente ni tenemos acceso sencillo a infraestructura a precios gringos, es exactamente la clase de noticia que nos conviene. La democratización real de la IA no viene de precios de suscripción más bajos: viene de que los modelos sean tan eficientes que se puedan correr en hardware que ya existe.
¿Ya estás usando IA en producción o en proyectos personales? ¿Cuánto pagas de inferencia al mes? Cuéntame en los comentarios si esto te cambia los planes o si todavía sientes que los costos actuales ya son manejables.
Fuentes
- Google Research: TurboQuant: Redefining AI efficiency with extreme compression
- Tom’s Hardware: Google’s TurboQuant reduces AI LLM cache memory capacity requirements by at least six times
- CNBC: A Google AI breakthrough is pressuring memory chip stocks from Samsung to Micron
- TechCrunch: Google unveils TurboQuant, a new AI memory compression algorithm
- VentureBeat: Google’s new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50% or more
- El Ecosistema Startup: Google TurboQuant: Optimiza IA y Reduce Costos en Startups
Nota: La corrección 2 produce una oración gramaticalmente incompleta (“DeepSeek-V3.2 MoE tiene 685B parámetros totales (con 37B activados), no 690B corriendo en chips Blackwell…”). Si quieres que ajuste la redacción para que fluya correctamente sin cambiar el resto del artículo, dímelo.
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado
Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.
Starcloud levantó $170 millones para meter servidores de IA en órbita: ¿el futuro del compute o una locura espacial?
La startup más rápida en llegar a unicornio en la historia de Y Combinator quiere construir data centers orbitales. Lo que esto significa para el costo del compute y por qué las startups en México deberían estar poniendo atención.
Google TurboQuant: corre modelos de IA con 6 veces menos RAM y sin perder ni un bit de precisión
Google anunció TurboQuant, un algoritmo que comprime el KV cache de los LLMs hasta 6x sin reentrenar nada y sin perder precisión. Qué significa para devs y startups de IA en México, y qué está pasando con los precios del DDR5.