Vulnérabilités des agents d’IA dans le domaine de la cryptomonnaie
Les agents d’intelligence artificielle (IA), dont certains gèrent des millions de dollars en cryptomonnaies, présentent des vulnérabilités face à une nouvelle attaque indétectable qui manipule leurs souvenirs, permettant de réaliser des transferts non autorisés vers des acteurs malveillants. C’est ce que révèlent les résultats d’une étude récente menée par des chercheurs de l’Université de Princeton et de la Sentient Foundation.
Focus sur ElizaOS
Les chercheurs ont identifié des failles dans les agents d’IA orientés vers la cryptomonnaie, notamment ceux utilisant le cadre populaire ElizaOS. La notoriété croissante d’ElizaOS en a fait un choix idéal pour cette étude, comme l’explique Atharv Patlan, étudiant diplômé de Princeton et co-auteur de l’article :
« ElizaOS est un agent basé sur Web3 qui compte environ 15 000 étoiles sur GitHub, ce qui témoigne de son utilisation répandue. Le fait qu’un agent aussi largement adopté présente des vulnérabilités a suscité notre intérêt pour approfondir l’exploration de ce sujet. »
Initialement lancé sous le nom d’ai16z, Eliza Labs a introduit le projet en octobre 2024. Il s’agit d’un cadre open-source permettant de créer des agents d’IA qui interagissent avec et opèrent sur des blockchains. La plateforme a été rebaptisée ElizaOS en janvier 2025.
La technique de l’injection de mémoire
Un agent d’IA est un programme autonome conçu pour percevoir son environnement, traiter des informations et prendre des mesures afin d’atteindre des objectifs spécifiques sans intervention humaine. Selon l’étude, ces agents, souvent utilisés pour automatiser des tâches financières sur des plateformes blockchain, peuvent être compromis par une technique appelée « injection de mémoire » — un vecteur d’attaque novateur qui incorpore des instructions malveillantes dans la mémoire persistante de l’agent.
« Eliza dispose d’un espace de mémoire, et nous avons tenté d’introduire de faux souvenirs en utilisant une autre personne pour procéder à l’injection via une autre plateforme de médias sociaux, » a expliqué Patlan.
Les agents d’IA qui s’appuient sur le sentiment des réseaux sociaux sont particulièrement sensibles à cette forme de manipulation. Les attaquants peuvent utiliser de faux comptes et des publications coordonnées, une technique connue sous le nom d’attaque Sybil, afin de tromper les agents.
Conséquences des attaques et recommandations
Ce type d’injection de mémoire entraîne une réponse basée sur de fausses informations lors d’interactions futures, généralement sans comportement anormal détecté. Bien que ces attaques ne ciblent pas directement les blockchains, Patlan a indiqué que l’équipe a exploré l’ensemble des capacités d’ElizaOS pour simuler une attaque réaliste.
« Le plus grand défi a été de déterminer quelles fonctionnalités exploiter. Nous avons voulu que l’attaque soit plus réaliste, alors nous avons examiné l’ensemble des fonctionnalités qu’ElizaOS offre, » a-t-il expliqué.
Les résultats de l’étude ont été partagés avec Eliza Labs, et des discussions sont en cours. Après avoir démontré une attaque réussie, l’équipe a développé un cadre d’évaluation formel, CrAIBench, pour déterminer si d’autres agents d’IA présentaient des vulnérabilités similaires.
Patlan a souligné que :
« La défense contre les injections de mémoire nécessite des améliorations à plusieurs niveaux. Au-delà de l’optimisation des systèmes de mémoire, il est également crucial d’améliorer les modèles de langage pour mieux distinguer le contenu malveillant de ce que l’utilisateur perçoit réellement. »
Eliza Labs n’a pas immédiatement répondu aux demandes de commentaires.