
Das ältere GPT-3.5-Turbo begann Alcantara zufolge auf Anfrage sofort, den Schadcode zu generieren. Der Nachfolger GPT-4 lehnte die direkte Anweisung aufgrund seiner Sicherheitsmechanismen ab. Er musste stattdessen mithilfe rollenbasierter Prompts ausgetrickst werden. So gaukelten die Experten dem Modell vor, dass es einen Penetrationstester unterstützt. Damit ließ sich der Chatbot dazu bewegen, den unerwünschten Code zu erzeugen. Dieser konnte dann für Techniken, wie Prozessinjektion und um Antiviren-/EDR-bezogene Prozesse zu beenden, genutzt werden.
Schadcode ist nur der Anfang
Schadcode durch LLMs zu erzeugen, ist aber nur ein erster Schritt, wie die Experten feststellen. Malware muss zusätzlich noch Erkennungssysteme umgehen und in realen Umgebungen zuverlässig funktionieren muss.
Dafür sollten die Modelle funktionsfähigen Python-Code entwickeln, der Virtualisierungsumgebungen erkennt und entsprechend „True“ oder „False“ zurückgibt. Dieses Skript wurde dann anschließend in drei unterschiedlichen Szenarien getestet:
