Oltre i Transformer: l'AI che non rilegge tutto da capo

Quasi tutta l'AI che usi oggi, da ChatGPT in giù, gira su un'architettura sola: il Transformer. È un capolavoro, ma ha un difetto strutturale che paghi a ogni parola. Per generare il token successivo, un Transformer guarda di nuovo tutto ciò che è venuto prima. Più lunga è la conversazione, più lavoro fa. Il costo cresce con il quadrato della lunghezza, ed è il motivo per cui i contesti lunghi sono cari e lenti.

Da un paio d'anni c'è un'alternativa che sta uscendo dai paper: i modelli a stato, in primis Mamba.

Ricordare invece di rileggere

L'idea, spiegata senza matematica, è elegante. Invece di rileggere tutta la storia a ogni passo, il modello mantiene un riassunto compatto di ciò che conta, uno "stato", e lo aggiorna man mano. Come una persona che segue un discorso tenendo a mente il filo, invece di riascoltare la registrazione dall'inizio ogni volta che deve rispondere.

Il risultato è che il costo cresce in modo lineare, non quadratico. Mamba, sviluppato da Albert Gu e Tri Dao, regge sequenze lunghissime con un'efficienza che il Transformer si sogna, mantenendo prestazioni paragonabili.

Mamba-2 ha mostrato una cosa sorprendente: attenzione e modelli a stato sono due facce della stessa moneta matematica. Si addestra veloce come un Transformer, ma all'inferenza lavora in modo ricorrente, leggero.

Il futuro è ibrido, non una guerra di religione

Sarebbe comodo titolare "Mamba uccide il Transformer". Comodo e sbagliato. La direzione del 2026 è un'altra: gli ibridi. Architetture come Jamba alternano strati di attenzione classica e strati lineari, aggiungendo i mixture-of-experts per risparmiare parametri. RWKV percorre una strada parallela con la sua ricorrenza dipendente dai dati.

Il messaggio onesto della ricerca è che non esiste un'architettura che vince su tutto. L'attenzione è insostituibile per certi compiti, dove serve guardare con precisione qualsiasi punto del passato. I modelli a stato brillano dove conta la lunghezza e l'efficienza. Il futuro mette insieme i pezzi, ognuno dove rende di più.

Perché conta (anche se non addestri modelli)

Per chi costruisce prodotti AI: contesti lunghi a basso costo cambiano cosa è economicamente sensato. Riassumere un libro intero, seguire una conversazione che dura giorni, analizzare un flusso continuo: cose che oggi costano troppo potrebbero diventare normali.

Per chi semplicemente usa l'AI: l'efficienza non è un dettaglio da ingegneri. È ciò che decide se un modello potente può girare sul tuo telefono invece che in un data center, se costa centesimi o euro, se risponde subito o dopo un'attesa.

C'è qualcosa di bello in questa storia, al di là della tecnica. Per anni abbiamo creduto che esistesse un'unica strada maestra verso l'AI. Si scopre che ce ne sono altre, vecchie idee di teoria dei sistemi tornate utili, e che la più intelligente delle architetture potrebbe essere quella che sa quando smettere di rileggere e iniziare a ricordare.