TurboQuant: l’algoritme és el nou hardware

Temps de lectura: 3 minuts

El futur de la IA no és entrenar models cada cop més grans, sinó fer córrer els actuals de manera infinitament més eficient

El 25 de març del 2026, Google Research va publicar els resultats de TurboQuant, un algoritme de compressió dissenyat per reduir la memòria necessària per executar models de llenguatge grans. Els números eren difícils d’ignorar: fins a sis vegades menys memòria, vuit vegades més velocitat d’inferència en targetes H100, i zero pèrdua de precisió. Les accions de Samsung, SK Hynix i Micron, els principals fabricants de memòria del planeta, van caure entre un 5 i un 6% en menys de 24 hores.

Per entendre per què TurboQuant és important més enllà de la pura notícia, cal entendre primer quin és el problema que resol. Els models de llenguatge grans, mentre generen text, han d’emmagatzemar a la memòria els càlculs previs de cada token de la conversa. Això s’anomena la memòria cau de clau-valor, o KV cache. Com més llarga és la conversa o el document, més gran és aquesta memòria cau. I com més gran, més cara i lenta és l’execució. Per a les empreses que corren agents d’IA en producció, el KV cache és un dels colls d’ampolla principals: limita la longitud del context, incrementa els costos d’inferència i ralentitza els sistemes.

TurboQuant ataca directament aquest problema. A través d’una combinació de dos mètodes matemàtics, PolarQuant i Quantized Johnson-Lindenstrauss, el sistema comprimeix el KV cache fins a tres bits per valor sense necessitat de re-entrenar el model ni ajustar-lo. En termes pràctics: el mateix model, en el mateix hardware, pot processar contextos sis vegades més llargs al mateix cost. O, també vist des de l’altre punt de vista, el mateix context al cost d’un sistema sis vegades més petit.

El CEO de Cloudflare, Matthew Prince, va ser dels primers a reaccionar: “Això és el moment DeepSeek de Google.” La comparació no és casual. DeepSeek va demostrar, a principis d’any, que un model entrenat amb menys recursos del que es pensava podia rivalitzar amb els millors models del món. L’impacte no va ser només tècnic: va qüestionar tota la lògica de “més gran és millor” que havia dominat el sector durant anys. TurboQuant té el mateix principi: si podem executar models grans amb una fracció de la memòria actual, realment cal tant de maquinari i la bogeria de preus que estem vivint?

Si TurboQuant s’adopta àmpliament, i la comunitat ja ha començat a integrar-lo a llama.cpp i MLX per a Apple Silicon, les implicacions per al mercat de semiconductors són reals. Menys demanda de memòria d’alta amplada de banda per executar models en producció significa menys demanda de les memòries HBM que Samsung, SK Hynix i Micron subministren als hyperscalers, on posaven totes les espectatives de negoci pels propers anys. Això però, no és la mort del negoci dels xips (ja han sortit molts analistes a aclarir-ho), però és un canvi en les regles del joc que el mercat ha absorbit en poques hores.

Tot i les bones notícies cal aclarir una cosa: TurboQuant no fa que entrenar models sigui més barat. La compressió actua sobre la inferència, és a dir, sobre l’execució del model un cop ja és entrenat. Fer córrer models és cada cop més eficient però construir-los continua sent molt car. Això significa que les barreres d’entrada per a les grans labs no desapareixen, però sí que s’obren noves possibilitats per a les empreses que volen desplegar models potents sense invertir milionades en infraestructura massiva.

En el fons, TurboQuant és un recordatori d’un principi que el sector de la IA tendeix a oblidar en els seus moments d’eufòria: el progrés no sempre té la forma d’un model nou o d’un xip més potent. De vegades, el canvi més gran arriba en forma d’un paper de recerca, d’un algoritme elegant i d’una comprensió més profunda de les matemàtiques que són la base de que tot això funcioni.

L’algoritme no és el nou hardware, però de vegades, l’algoritme és suficient per fer trontollar els que fabriquen el hardware, reblant el clau!