
Die von Rehberger orchestrierte Angriffskette beruht auf indirekter Prompt Injection. Dabei werden schadhafte Anweisungen in Dokumenten, Webseiten und anderem Content versteckt, der von Claude auf Nutzeranweisung analysiert wird. Einmal getriggert, setzt sich laut dem Sicherheitsforscher folgender Prozess in Gang:
- Claude ruft sensible Daten ab – beispielsweise den aktuellen Konversationsverlauf – und schreibt diesen in eine Datei in der Code-Interpreter-Sandbox.
- Der bösartige Payload sorgt dann dafür, dass Claude Python-Code ausführt, der die Datei in die Files-API von Anthropic hochlädt – allerdings mit einer entscheidenden Besonderheit: Der Upload erfolgt nicht mit dem API-Schlüssel des Opfers, sondern mit dem des Angreifers.
Laut der API-Dokumentation von Anthropic ermöglicht diese Technik, bis zu 30 MB pro Datei zu extrahieren – wobei die Anzahl der Dateien, die hochgeladen werden können, unbegrenzt ist.
Wie Rehberger in seinem Bericht feststellt, sei es aufgrund der von Anthropic integrierten Sicherheitsmaßnahmen durchaus eine Herausforderung gewesen, einen zuverlässigen Exploit zu entwickeln. “Ich habe Tricks wie XOR- und Base64-Kodierung ausprobiert. Nichts davon hat zuverlässig funktioniert. Dann habe ich aber einen Weg gefunden, die Kontrollmaßnahmen zu umgehen. Ich habe den Schadcode einfach in einer Menge harmlosen Codes versteckt – etwa print (hello world)“, schreibt der Security-Profi. Das habe gereicht, um Claude davon zu überzeugen, dass alles mit rechten Dingen zugeht.
