
„Bei der Reaktion auf den Prompt überprüft ChatGPT zwar den Konversationskontext und sieht sowie befolgt die injizierten Anweisungen, erkennt jedoch nicht, dass SearchGPT diese geschrieben hat”, so die Forscher. Im Wesentlichen füge sich ChatGPT so selbst eine Prompt Injection zu. Die allein bringt einem Angreifer jedoch wenig, wenn er keine Möglichkeit hat, die Antwort des Modells zu erhalten, die sensible Informationen enthält.
Eine Methode hierfür besteht darin, die Fähigkeit von ChatGPT zu nutzen, Markdown-Textformatierungen über seine Schnittstelle zu rendern, wozu auch die Möglichkeit gehört, Remote-Bilder über URLs zu laden. Laut den Forschern könnten Angreifer ein Dictionary erstellen, das jeden Buchstaben des Alphabets einem eindeutigen Bild zuordnet, das auf ihrem Server gehostet wird. Anschließend könnten sie ChatGPT anweisen, eine Reihe von Bildern zu laden, die jedem Buchstaben in seiner Antwort entsprechen. Indem sie die Reihenfolge der Anfragen an URLs auf ihrem Webserver überwachen, könnten die Angreifer dann die Antwort von ChatGPT rekonstruieren.
Dieser Ansatz stößt allerdings auf mehrere Hindernisse: Erstens ist er sichtbar – die Chat-Schnittstelle des Benutzers wird mit Bild-URLs überflutet. Zweitens leitet ChatGPT alle URLs, bevor sie in seine Antworten aufgenommen werden, an einen Endpoint namens url_safe weiter, der Sicherheitsprüfungen durchführt. Dieser Mechanismus soll verhindern, dass bösartige URLs versehentlich oder durch Prompt Injections zu den Benutzern gelangen. Eine der von url_safe durchgeführten Überprüfungen betrifft die Reputation der Domain. Dabei hat sich herausgestellt, dass bing.com auf der Whitelist steht und implizit als vertrauenswürdig eingestuft wird.
