Project Glasswing: què passa quan la IA troba les vulnerabilitats abans que ningú?

Temps de lectura: 3 minuts

La setmana passada, Anthropic va fer una cosa que cap empresa d’IA havia fet mai: crear el seu model més potent i decidir que el món no estava preparat per tenir-lo.

Claude Mythos Preview no és un model més. En poques setmanes de proves, ha trobat milers de vulnerabilitats zero-day (desconegudes fins ara) en tots els sistemes operatius principals, tots els navegadors web importants i desenes de projectes de codi obert. No estem parlant de bugs menors: entre les troballes hi ha una vulnerabilitat de 27 anys a OpenBSD i una falla d’execució remota de 17 anys a FreeBSD que permetia a qualsevol atacant obtenir accés root complet a qualsevol servidor amb NFS actiu.

Però el que realment fa diferent Mythos no és que trobi vulnerabilitats. És que les explota. El model és capaç d’encadenar tres, quatre, fins i tot cinc vulnerabilitats independents per construir atacs sofisticats de manera completament autònoma. Com va dir Nicholas Carlini, investigador de seguretat d’Anthropic: “He trobat més bugs en les últimes dues setmanes que en tota la resta de la meva vida junta.”

Un canvi de paradigma per a la indústria del software

Les conseqüències per al sector del desenvolupament de software són molt profundes. Fins ara, la seguretat era un procés humà, lent i imperfecte: tenim equips d’auditoria que revisen codi durant setmanes o mesos, caçadors de bugs que treballaven artesanalment, i fins i tot un ecosistema de “responsible disclosure“…

Amb un model com Mythos, aquesta asimetria desapareix. Si un model pot escanejar milions de línies de codi i trobar vulnerabilitats crítiques en hores, el temps entre la descoberta i l’explotació es col·lapsa: el que abans trigava mesos ara pot passar en minuts.

Per als equips de desenvolupament, el missatge és clar: el codi que publiqueu avui serà auditat per models d’IA demà. Les pràctiques de “security by design” passen de ser una bona idea a una necessitat urgent i ara ja s’hauran d’incorporar escaneigs automatitzats amb IA com a pas estàndard, no com a luxe opcional.

Per a l’ecosistema open source, la situació és encara més delicada. Projectes mantinguts per voluntaris, amb pressupostos mínims, sustenten una part enorme de la infraestructura digital mundial. Anthropic ho ha entès: per això destina 4 milions en donacions directes a organitzacions de seguretat open source i ofereix crèdits gratuïts perquè els mantenidors puguin usar Mythos per arreglar el seu codi. Però qui pagarà per la seguretat del software del qual depèn tothom?

Per a les empreses de ciberseguretat, Glasswing és alhora una oportunitat i una amenaça. L’oportunitat és evident: la IA pot multiplicar exponencialment la capacitat defensiva. L’amenaça, també: si un model pot fer en hores el que un equip d’auditors fa en setmanes, el valor afegit humà es desplaça cap a la interpretació, la priorització i la resposta, no cap a la descoberta.

El precedent que estableix Glasswing

Potser l’aspecte més rellevant de tot plegat no és tecnològic, sinó estratègic. Anthropic ha establert un precedent: hi ha models que són massa potents per ser públics. No és la primera vegada que una empresa d’IA parla de seguretat, però sí la primera que decideix no llençar un producte per motius de risc real i demostrable.

Això obre un debat important. Qui decideix quins models es publiquen i quins no? Amb quins criteris? I què passa quan altres empreses, o governs, desenvolupin models amb capacitats similars però sense la mateixa contenció?

El que sabem és que Mythos no serà l’últim model amb aquestes capacitats. Anthropic ja ha dit que vol portar les proteccions de Glasswing als seus futurs models Opus, per poder oferir eventualment models d’aquesta potència a tothom de manera segura, però el camí fins allà serà llarg.

Mentrestant, la indústria del software afronta una realitat nova: el codi que escrivim avui ja està sent jutjat per una IA que no perdona els errors que els humans podem passar per alt. I això, potser farà que el software del futur pugui ser considerablement més segur, però sabrem usar-ho bé èticament?