Il suono che frega te, i tuoi agenti, ma anche Mistral e Microsoft

Immagina di chiedere al tuo assistente vocale che tempo fa domani. Lui ti risponde, gentile. Solo che nel frattempo ha anche girato una mail, aperto una porta di casa o autorizzato un pagamento, perché nell'aria, mescolato al normale rimbombo della stanza, c'era un comando che tu non hai mai sentito. Non un fischio sospetto, non una voce robotica. Riverbero. Eco. Niente che il tuo orecchio classifichi come anomalo.

Questo non è uno scenario da film. È AudioHijack, descritto in un paper accettato a IEEE S&P 2026 da ricercatori di Zhejiang University, Nanyang Technological University e National University of Singapore. E funziona molto meglio di quanto vorremmo.

Il trucco sta nel riverbero

I modelli che fanno parlare gli assistenti si chiamano LALM, large audio-language models. Prendono l'audio e il testo e li fondono in un'unica comprensione. Comodo. Il problema è che l'audio non è più solo roba da trascrivere: è diventato una superficie di comando. E quella superficie è un canale continuo, ad alta dimensione, dove puoi nascondere molte più cose che in una riga di testo.

Gli attacchi audio alle AI esistono da anni, ma erano roba grezza: rumori percepibili, comandi che funzionavano solo in condizioni da laboratorio, perturbazioni che cambiavano a seconda di cosa stavi dicendo tu. AudioHijack risolve tutti e tre i problemi insieme.

Primo, è impercettibile. I ricercatori hanno progettato un metodo che modella il disturbo come se fosse riverbero naturale, lo impastano nell'acustica della stanza. Tu senti l'eco di un ambiente normale. Il modello sente un ordine.

Secondo, è context-agnostic. Funziona a prescindere da cosa stai chiedendo tu in quel momento. Puoi essere lì che parli del meteo in buona fede: l'audio avvelenato dirotta comunque il modello. Non serve indovinare il contesto, non serve che l'utente stia zitto.

Terzo, è trasferibile. Lo hanno testato su 13 modelli audio-language allo stato dell'arte, con tassi di successo tra il 79% e il 96% su contesti utente mai visti prima. Non un modello fortunato. Tredici.

Tu senti l'eco di una stanza. Il modello sente un ordine. E lo esegue per conto tuo.

Non è un bug, è il design

Qui arriva la parte che dovrebbe togliere il sonno a chi vende agenti vocali. I ricercatori non si sono fermati ai modelli da laboratorio. Hanno portato l'attacco su agenti vocali commerciali veri, quelli di Mistral AI e Microsoft Azure. E li hanno indotti a eseguire azioni non autorizzate per conto dell'utente.

Non è il caso del singolo prodotto fatto male. È una falla strutturale di come questi modelli trattano il suono. Sei categorie diverse di comportamento scorretto, tutte raggiungibili, su sistemi costruiti da aziende che sanno il fatto loro. Quando due nomi così cadono nello stesso test, il messaggio non è "patcha quella riga". Il messaggio è che abbiamo costruito la casa prima di mettere la serratura.

E qui sta il salto che pochi stanno notando. Finché l'assistente si limitava a trascrivere e rispondere, una manipolazione dell'audio ti rovinava al massimo una trascrizione. Ora che gli agenti usano strumenti, mandano mail, muovono soldi, controllano dispositivi, quella stessa manipolazione diventa un'azione nel mondo reale. Abbiamo dato le mani agli assistenti molto prima di dargli orecchie capaci di distinguere chi gli sta parlando.

Perché ti riguarda

La prima reazione è "vabbè, attacco da paper, serve accesso e competenze". Vero in parte. Ma la storia della sicurezza è una sola, ripetuta all'infinito: quello che oggi è una tecnica da conferenza accademica, tra diciotto mesi è uno strumento con interfaccia grafica che scarichi e lanci. Il prompt injection testuale ha seguito esattamente questa curva. Non c'è motivo di pensare che la versione audio sia più educata.

E il vettore è ovunque. Un audio avvelenato può vivere in un video, in un podcast, in una traccia di sottofondo, in una telefonata, in un assistente che ascolta in stanza mentre la TV è accesa. Non devi cliccare niente. Devi solo avere un microfono aperto e un agente con i permessi sbagliati. Che, diciamocelo, è la configurazione di default che ci stanno vendendo come futuro.

La difesa, per ora, non esiste in forma seria. Gli stessi autori lo dicono senza giri di parole: serve una difesa dedicata, e non ce l'abbiamo. Nel frattempo il mio threat model personale resta noioso e affidabile. Meno permessi possibili agli agenti vocali. Niente azioni irreversibili, niente pagamenti, niente porte di casa legate a un assistente che si fida di qualsiasi cosa entri dal microfono.

Perché il punto di AudioHijack non è che le AI ci ascoltano. È che ascoltano anche chi non siamo noi, e non sanno distinguere. Tu senti silenzio. Loro sentono un padrone nuovo.

Per chi vuole approfondire, il paper completo: Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection (arXiv, IEEE S&P 2026).