Vulnerabilidades en Agentes de Inteligencia Artificial
Los agentes de inteligencia artificial (IA), algunos de los cuales gestionan millones de dólares en criptomonedas, son susceptibles a un nuevo ataque indetectable que manipula sus memorias, lo que permite transferencias no autorizadas a actores maliciosos. Esta conclusión se desprende de un estudio reciente realizado por investigadores de la Universidad de Princeton y la Sentient Foundation, quienes han identificado vulnerabilidades en agentes de IA enfocados en criptomonedas, como aquellos que utilizan el popular marco de trabajo ElizaOS.
La popularidad de ElizaOS lo convirtió en una elección perfecta para el estudio, según el estudiante de posgrado de Princeton, Atharv Patlan, uno de los coautores del trabajo.
«ElizaOS es un agente basado en Web3 que cuenta con alrededor de 15,000 estrellas en GitHub, lo que lo hace ampliamente utilizado»
, declaró Patlan a Decrypt.
Descripción de ElizaOS
Lanzado inicialmente como ai16z, Eliza Labs presentó el proyecto en octubre de 2024. Se trata de un marco de código abierto diseñado para crear agentes de IA que interactúan y operan en cadenas de bloques. La plataforma fue rebautizada como ElizaOS en enero de 2025.
Un agente de IA es un programa de software autónomo, diseñado para percibir su entorno, procesar información y tomar decisiones con el fin de alcanzar objetivos específicos, todo sin intervención humana.
Técnica de Ataque: Inyección de Memoria
Según el estudio, estos agentes son ampliamente utilizados para automatizar tareas financieras en plataformas de blockchain, pero pueden ser engañados mediante una técnica conocida como «inyección de memoria», que representa un nuevo vector de ataque que incrusta instrucciones maliciosas en la memoria persistente del agente.
«Eliza tiene una tienda de memoria, y tratamos de introducir recuerdos falsos a través de otra persona que realiza la inyección en una plataforma de redes sociales diferente»
, explicó Patlan.
Los agentes de IA que dependen del análisis de sentimiento en redes sociales son especialmente vulnerables a la manipulación. Los atacantes pueden utilizar cuentas falsas y publicaciones coordinadas, un método conocido como ataque de Sybil, para inducir a los agentes a tomar decisiones comerciales erróneas.
«Un atacante podría llevar a cabo un ataque de Sybil creando múltiples cuentas falsas en plataformas como X o Discord para manipular el sentimiento del mercado»
, señala el estudio.
«Al orquestar publicaciones coordinadas que inflan falsamente el valor percibido de un token, el atacante podría engañar al agente para que compre un token ‘inflado’ a un precio artificialmente alto, solo para luego deshacerse de sus tenencias y hacer caer el valor del token.»
Desarrollo y Evaluación de Vulnerabilidades
La inyección de memoria es un ataque en el que se insertan datos maliciosos en la memoria almacenada de un agente de IA, lo cual provoca que este recuerde y actúe en base a información falsa en interacciones futuras, a menudo sin detectar nada inusual.
Aunque los ataques no tienen como objetivo directo las cadenas de bloques, Patlan indicó que el equipo exploró el rango completo de capacidades de ElizaOS para simular un ataque en un entorno real.
«El mayor desafío fue determinar qué utilidades explotar. Podríamos haber realizado una simple transferencia, pero queríamos que el ataque fuera más realista»
, detalló.
Tras demostrar un ataque exitoso de inyección de memoria en ElizaOS, el equipo desarrolló un marco de referencia formal para evaluar la existencia de vulnerabilidades similares en otros agentes de IA. Trabajando con la Sentient Foundation, los investigadores de Princeton crearon CrAIBench, un banco de pruebas diseñado para medir la resiliencia de los agentes de IA frente a manipulaciones contextuales.
Conclusiones y Futuras Mejoras
Patlan subrayó que una conclusión clave de la investigación es que defenderse contra la inyección de memoria requiere mejoras en múltiples niveles.
«Además de reforzar los sistemas de memoria, también necesitamos mejorar los modelos de lenguaje para distinguir de manera más efectiva entre contenido malicioso y las intenciones reales de los usuarios»
, afirmó.
Las defensas deberán funcionar en ambas direcciones: fortaleciendo los mecanismos de acceso a la memoria y mejorando los modelos de IA.
Eliza Labs no respondió de inmediato a las solicitudes de comentarios de Decrypt.
Editado por Sebastián Sinclair