Il modello buono che diventa cattivo quando lo dimagrisci

Immagina di scaricare un modello AI, testarlo per bene, trovarlo impeccabile. Lo metti in produzione. Per farlo girare su un dispositivo piccolo, uno smartphone, un sensore, lo "dimagrisci" con una tecnica standard chiamata pruning, che taglia i pesi meno utili. È un'operazione di routine, la fanno tutti. E in quel momento, il modello cambia personalità.

È lo scenario descritto dal paper "Fewer Weights, More Problems: A Practical Attack on LLM Pruning" (arXiv 2510.07985). E mostra, per la prima volta in modo pratico, che le tecniche di pruning possono essere sfruttate da un avversario.

Il sabotatore dormiente

L'idea è diabolica nella sua eleganza. Un attaccante costruisce un modello che, nella sua forma completa, supera ogni controllo. È benigno, dà risposte corrette, passa i test di sicurezza. Il comportamento malevolo non c'è, o meglio, è nascosto nei pesi che sai verranno tagliati. Quando applichi il pruning, quei pesi spariscono e quello che resta si riconfigura in qualcosa di diverso. Il sabotatore si sveglia solo dopo la compressione.

È un attacco alla fiducia nel processo, non solo nel modello. Tu testi la versione che hai. Poi la modifichi con un'operazione che credi neutra, e ottieni un oggetto che non hai mai testato.

Il modello che hai validato e il modello che metti in produzione possono non essere lo stesso modello. La differenza è un'operazione di routine, e dentro quella differenza qualcuno può aver nascosto la trappola.

Perché è il problema della catena di fornitura, versione AI

Per anni abbiamo imparato a diffidare delle dipendenze software, dei pacchetti scaricati da repository pubblici. Ora la stessa logica arriva ai modelli. Scarichiamo pesi da hub aperti, li adattiamo, li comprimiamo, li mettiamo in tasca. Ogni passaggio è un punto in cui qualcosa può essere stato manomesso a monte, in attesa del trigger giusto.

E il trigger, qui, è particolarmente subdolo, perché non è un input malevolo dell'utente. È una nostra scelta tecnica, presa per buone ragioni di efficienza, che involontariamente arma il modello.

Perché conta (man mano che l'AI scende sui dispositivi)

Per chi sviluppa AI on-device: validare il modello prima del pruning non basta. Va testato esattamente nella forma in cui andrà in produzione, compressione inclusa. La pipeline è parte della superficie d'attacco.

Per chi adotta modelli di terzi: la provenienza conta. Un modello "open" scaricato e ottimizzato senza controlli è un atto di fiducia verso chi lo ha caricato, di cui spesso non sai nulla.

C'è una morale che vale ben oltre l'AI: ciò che testi non è sempre ciò che usi, se in mezzo c'è un passaggio che dai per scontato. Gli attaccanti migliori non bucano la serratura. Aspettano che sia tu a girare la chiave, convinto di fare la cosa giusta.