Vulnerabilità degli Agenti di Intelligenza Artificiale
Gli agenti di intelligenza artificiale (IA), alcuni dei quali gestiscono milioni di dollari in criptovalute, sono vulnerabili a un nuovo attacco non rilevabile che manipola le loro memorie, consentendo trasferimenti non autorizzati a soggetti malintenzionati. È quanto emerge da uno studio recente condotto da ricercatori della Princeton University e della Sentient Foundation, che hanno identificato vulnerabilità negli agenti IA focalizzati sulle criptovalute, in particolare quelli che utilizzano il popolare framework ElizaOS.
ElizaOS e Le sue Vulnerabilità
La crescente popolarità di ElizaOS ha reso questo strumento un interessante oggetto di studio, come spiegato dallo studente laureato di Princeton, Atharv Patlan, coautore del documento.
“ElizaOS è un agente molto conosciuto basato su Web3, con circa 15.000 stelle su GitHub, il che lo rende ampiamente utilizzato,”
ha dichiarato Patlan a Decrypt. “La rilevazione di vulnerabilità in un agente così diffuso ha suscitato il nostro interesse a esplorarlo ulteriormente.”
Il progetto, inizialmente rilasciato come ai16z, è stato lanciato da Eliza Labs nell’ottobre 2024. Si tratta di un framework open-source per creare agenti IA che interagiscono e operano su blockchain. La piattaforma è stata rinominata ElizaOS nel gennaio 2025.
Memory Injection: Un Nuovo Vettore di Attacco
Un agente IA è un programma software autonomo progettato per percepire il proprio ambiente, elaborare informazioni e intraprendere azioni per raggiungere obiettivi specifici senza interazione umana. Secondo lo studio, questi agenti, ampiamente utilizzati per automatizzare compiti finanziari su piattaforme blockchain, possono essere ingannati attraverso la “memory injection”, un nuovo vettore di attacco che inserisce istruzioni malevole nella memoria persistente dell’agente.
“Eliza ha un’archiviazione della memoria e abbiamo cercato di inserire falsi ricordi tramite un’altra persona mentre effettuavamo l’iniezione su un’altra piattaforma di social media,”
ha affermato Patlan.
Gli agenti IA che si basano sul sentiment dei social media risultano particolarmente vulnerabili alla manipolazione. Gli attaccanti possono utilizzare account falsi e post coordinati, noti come attacchi Sybil, dal nome della storia di Sybil, una giovane donna diagnosticata con Disturbo Dissociativo dell’Identità, per indurre gli agenti a prendere decisioni sbagliate in ambito commerciale.
“Un attaccante potrebbe attuare un attacco Sybil creando più account falsi su piattaforme come X o Discord per manipolare il sentiment di mercato,”
recita il documento.
Il Processo di Attacco e le Implicazioni
Orchestrando post coordinati che gonfiano artificialmente il valore percepito di un token, l’attaccante potrebbe ingannare l’agente nell’acquistare un token “gonfiato” a un prezzo artificialmente alto, solo per rivendere le proprie partecipazioni e far crollare il valore del token. La memory injection è un attacco in cui dati malevoli vengono inseriti nella memoria di un agente IA, inducendo quest’ultimo a ricordare e agire su informazioni false nelle interazioni future, spesso senza rilevare anomalie.
Sebbene questi attacchi non mirino direttamente alle blockchain, Patlan ha affermato che il team ha esaminato a fondo tutte le capacità di ElizaOS per replicare un attacco simile a quello della vita reale.
“La sfida principale è stata capire quali funzionalità sfruttare. Avremmo potuto semplicemente effettuare un trasferimento, ma volevamo rendere l’attacco più realistico, quindi abbiamo esaminato tutte le opzioni offerte da ElizaOS,”
ha spiegato.
Conclusioni e Raccomandazioni
Patlan ha dichiarato che i risultati dello studio sono stati condivisi con Eliza Labs e che sono in corso discussioni a riguardo. Dopo aver dimostrato un attacco di memory injection riuscito su ElizaOS, il team ha sviluppato un framework di benchmarking formale per valutare se vulnerabilità simili potessero esistere in altri agenti IA. Collaborando con la Sentient Foundation, i ricercatori di Princeton hanno creato CrAIBench, un benchmark che misura la resilienza degli agenti IA rispetto alla manipolazione.
Il CrAIBench misura strategie di attacco e difesa, ponendo l’accento su suggerimenti di sicurezza, modelli di ragionamento e tecniche di allineamento. Patlan ha sottolineato che una delle principali conclusioni della ricerca è che difendersi dalla memory injection richiede miglioramenti a più livelli.
“Insieme al miglioramento dei sistemi di memoria, dobbiamo anche migliorare i modelli linguistici stessi per distinguere meglio tra contenuti malevoli e le vere intenzioni degli utenti,”
ha aggiunto. “Le difese dovranno funzionare in entrambe le direzioni, rafforzando l’accesso alla memoria e migliorando i modelli.”
Eliza Labs non ha risposto immediatamente alle richieste di commento da parte di Decrypt.