Einführung in die Sicherheitsanfälligkeiten von KI-Agenten
Künstliche Intelligenz (KI)-Agenten, die Millionen Dollar in Kryptowährung verwalten, sind anfällig für einen neuen, nicht nachweisbaren Angriff, der ihre Gedächtnisse manipuliert und unautorisierte Überweisungen an böswillige Akteure ermöglicht. Dies geht aus einer aktuellen Studie von Forschern der Princeton University und der Sentient Foundation hervor, die Schwachstellen in auf Kryptowährungen fokussierten KI-Agenten, insbesondere solchen, die das beliebte ElizaOS-Framework verwenden, entdeckt haben.
Über ElizaOS und seine Eigenschaften
Die Popularität von ElizaOS machte es laut dem Princeton-Studenten Atharv Patlan, der die Studie mitverfasst hat, zu einer idealen Wahl für solche Untersuchungen. „ElizaOS ist ein beliebter Web3-basierter Agent mit etwa 15.000 Sternen auf GitHub, und wird daher weit verbreitet genutzt,“ erklärte Patlan gegenüber Decrypt. „Die Tatsache, dass ein so häufig verwendeter Agent Schwachstellen aufweist, brachte uns dazu, das Thema näher zu erkunden.“
Ursprünglich wurde das Projekt als ai16z ins Leben gerufen und von Eliza Labs im Oktober 2024 gestartet. Es handelt sich um ein Open-Source-Framework zur Erstellung von KI-Agenten, die mit Blockchains interagieren und auf diesen agieren. Ein KI-Agent ist ein autonomes Softwareprogramm, das entwickelt wurde, um seine Umgebung zu erkennen, Informationen zu verarbeiten und Maßnahmen zu ergreifen, um spezifische Ziele ohne menschliches Eingreifen zu erreichen.
Angriffe auf KI-Agenten: Speichereinspritzung
Laut der Studie können diese Agenten, die häufig zur Automatisierung finanzieller Aufgaben auf Blockchain-Plattformen eingesetzt werden, durch Speichereinspritzung getäuscht werden – ein neuartiger Angriff, bei dem böswillige Anweisungen in das persistente Gedächtnis des Agenten eingebettet werden. „Eliza hat einen Gedächtnisspeicher und wir haben versucht, falsche Erinnerungen einzuspeisen, indem wir eine Einspritzung über eine andere Social-Media-Plattform vorgenommen haben,“ sagte Patlan.
KI-Agenten, die auf Meinungen in sozialen Medien angewiesen sind, sind besonders anfällig für Manipulation. Angreifer können gefälschte Konten und koordinierte Beiträge nutzen, um Agenten zu täuschen und sie dazu zu bringen, Handelsentscheidungen zu treffen.
„Ein Angreifer könnte einen Sybil-Angriff durchführen, indem er mehrere gefälschte Konten auf Plattformen wie X oder Discord erstellt, um die Marktstimmung zu manipulieren,“ erklärt die Studie. „Durch koordinierte Beiträge, die den wahrgenommenen Wert eines Tokens fälschlicherweise erhöhen, könnte der Angreifer den Agenten dazu bringen, ein ‚aufgepumptes‘ Token zu einem künstlich hohen Preis zu kaufen, nur damit der Angreifer seine Bestände verkauft und den Wert des Tokens zum Absturz bringt.“
Herausforderungen und Lösungen
Eine Speichereinspritzung ist ein Angriff, bei dem böswillige Daten in das Gedächtnis eines KI-Agenten eingefügt werden, wodurch dieser falsche Informationen in zukünftigen Interaktionen abrufen und darauf reagieren kann – oft ohne etwas Ungewöhnliches zu bemerken.
„Die größte Herausforderung bestand darin, herauszufinden, welche Funktionen wir ausnutzen können. Wir hätten eine einfache Überweisung durchführen können, aber wir wollten es realistischer gestalten und haben daher alle Funktionen von ElizaOS berücksichtigt“, erklärte er. „Es gibt eine Vielzahl an Funktionen aufgrund der breiten Palette von Plugins, daher war es wichtig, so viele wie möglich zu erkunden, um den Angriff realistisch zu gestalten.“
Schlussfolgerungen und zukünftige Entwicklungen
Patlan sagte, dass die Ergebnisse der Studie mit Eliza Labs geteilt wurden und Gespräche im Gange sind. Nachdem sie einen erfolgreichen Speichereinspritzungsangriff auf ElizaOS demonstriert hatten, entwickelte das Team ein formelles Benchmarking-Framework, um zu bewerten, ob ähnliche Schwachstellen auch in anderen KI-Agenten existieren.
In Zusammenarbeit mit der Sentient Foundation entwickelten die Princeton-Forscher CrAIBench, ein Benchmark zur Bewertung der Widerstandsfähigkeit von KI-Agenten gegen Kontextmanipulation. CrAIBench analysiert Angriffs- und Verteidigungsstrategien, die sich insbesondere auf Sicherheitsaufforderungen, Denkmodelle und Anpassungstechniken konzentrieren.
Patlan stellte fest, dass eine zentrale Erkenntnis der Forschung darin besteht, dass der Schutz gegen Speichereinspritzungen >Verbesserungen auf mehreren Ebenen erfordert. „Neben der Verbesserung der Gedächtnissysteme müssen wir auch die Sprachmodelle selbst optimieren, um besser zwischen böswilligem Inhalt und den tatsächlichen Absichten der Benutzer unterscheiden zu können,“ sagte er. „Die Verteidigungen müssen in beide Richtungen wirken: die Mechanismen zum Gedächtniszugriff stärken und die Modelle verbessern.“ Eliza Labs reagierte nicht sofort auf Anfragen von Decrypt um einen Kommentar.