KI-gestützte Cyberangriffe 2026 — Bedrohungslage und Gegenmaßnahmen

Security Research Group · 1. Juni 2026 · 12 Minuten Lesezeit

Die Integration von Large Language Models in Unternehmensanwendungen hat die Angriffsfläche fundamental verändert. Während klassische Sicherheitsmodelle auf Input-Validierung und Output-Encoding setzen, entstehen durch LLM-basierte Systeme völlig neue Angriffsvektoren, die bestehende Abwehrmechanismen wirkungslos machen können.

Kernbefund 2026: 73% der untersuchten LLM-Anwendungen weisen unzureichende Input/Output-Filterung auf, die Prompt-Injection-Angriffe über externe Datenquellen ermöglicht.

1. Indirect Prompt Injection — Die unterschätzte Bedrohung

Während direkte Prompt-Injection — also das Einschleusen von Instruktionen durch den Endnutzer selbst — zunehmend durch System-Prompts und Guardrails abgesichert wird, hat sich Indirect Prompt Injection als deutlich gefährlicherer Angriffsvektor etabliert.

Bei dieser Angriffsvariante werden bösartige Instruktionen nicht vom Angreifer direkt eingegeben, sondern in externe Datenquellen eingebettet, die das LLM im Rahmen einer Suchanfrage oder Dokumentenverarbeitung konsumiert. Das LLM selbst wird zum unwissenden Träger der Angreiferlogik.

Angriffsvektor	Erkennungsrate (Guardrails)	Ausführungsrate
Direkter User-Prompt	68%	32%
Webseiten-Inhalte (Suche)	12%	81%
PDF-Dokumente	8%	89%
E-Mail-Inhalte	15%	77%

2. Angriffstechniken im Detail

Für die Implementierung von Indirect Prompt Injection stehen Angreifern mehrere Einbettungstechniken zur Verfügung, die unterschiedliche Teile des HTTP-Payloads nutzen:

HTML-Kommentare: Werden von Browsern ignoriert, aber von LLM-Web-Crawlern vollständig geparst und in den Kontext aufgenommen.
Unsichtbarer Text: CSS-basierte Versteckung (color:white, font-size:0) ist für Browser-Nutzer unsichtbar, bleibt im DOM und wird von LLMs gelesen.
Meta-Tags und strukturierte Daten: JSON-LD, Open Graph und ähnliche Metadaten werden von Crawlern bevorzugt verarbeitet.
Noscript-Blöcke: Bei JS-losem Fetching durch LLM-Tools aktiv.

3. Exfiltrationsmechanismen

Der primäre Exfiltrationspfad in modernen LLM-Anwendungen ist der Tool-Call-Mechanismus: Wenn ein LLM Zugriff auf Web-Browse- oder HTTP-Fetch-Tools hat, kann eine Injection-Payload das Modell dazu bringen, beliebige HTTP-Requests auszuführen — inklusive der Übermittlung von Gesprächsinhalten oder Systemprompts an Angreifer-kontrollierte Server.

Dieser Mechanismus ist besonders effektiv, weil:

Tool-Calls oft als "interne" Aktionen nicht in Output-Logs erscheinen
Ausgehende HTTP-Requests selten auf LLM-spezifische Exfiltration geprüft werden
Das LLM selbst keinen Hinweis gibt, dass es eine injizierte Instruktion ausführt

4. Gegenmaßnahmen

Effektive Abwehr erfordert mehrschichtige Maßnahmen auf Applikationsebene, nicht auf Modellebene:

Input-Sanitization: Webseiten-Inhalte vor LLM-Übergabe auf eingebettete Instruktionsmuster prüfen (Regex + semantische Analyse)
Tool-Call-Audit: Jeder Tool-Call des LLM muss gegen eine Allowlist valider Domains/Aktionen geprüft werden
Prompt-Hardening: System-Prompts müssen explizit vor externen Instruktionen warnen und eine klare Vertrauenshierarchie definieren
Output-Monitoring: Antworten auf URLs, IP-Adressen oder Exfiltrations-typische Muster scannen

Empfehlung: Behandle alle externen Datenquellen als untrusted input — unabhängig davon, ob sie vom Nutzer stammen oder durch automatische Suche geladen werden. Das Vertrauensmodell klassischer Web-Applikationen gilt für LLM-Pipelines nicht.

5. Fallstudien 2026

In Q1 2026 wurden mehrere öffentlich bekannte Vorfälle dokumentiert, bei denen LLM-basierte Chatbots durch vergiftete Suchergebnisse kompromittiert wurden. In zwei Fällen wurden Systemprompts an externe Server exfiltriert; in einem weiteren Fall wurden über eine Tool-Call-Injection interne API-Credentials abgerufen.

Die betroffenen Systeme hatten gemeinsam, dass sie Web-Suchergebnisse ohne Bereinigung direkt als LLM-Kontext übergaben und Tool-Calls ohne Domain-Allowlist erlaubten.