Anfang 2024 kontaktierte ein Kunde von Air Canada den Chatbot der Fluggesellschaft. Er hatte gerade einen Trauerfall in der Familie erlitten und erkundigte sich nach Ermäßigungen für kurzfristige Buchungen. Der Agent versicherte ihm, er sei berechtigt, nachträglich eine Teilerstattung zu beantragen.
Die Erstattung kam nie. Als der Kunde reklamierte, argumentierte Air Canada, der Chatbot sei für seine eigenen Aussagen verantwortlich, das Unternehmen könne nicht haftbar gemacht werden. Das British Columbia Civil Resolution Tribunal sah das anders. Richter Christopher Rivers nannte Air Canadas Argumentation "bemerkenswert" und stellte klar: Ein Chatbot ist Teil der Unternehmenswebsite, und Unternehmen tragen die Verantwortung für alle Informationen auf ihrer Website. Das Urteil verpflichtete Air Canada zur Zahlung von 812 kanadischen Dollar Differenz zu den Trauerfall-Tarifen.
Dieser Fall illustriert ein grundlegendes Problem. Die vorherigen Teile dieser Serie haben dokumentiert, was Agenten leisten können. Dieser Teil dokumentiert, was schiefgehen kann, und warum die Risiken mit zunehmender Autonomie nicht linear, sondern exponentiell wachsen.
Das Zuverlässigkeitsproblem
Im Dezember 2023 installierte ein Chevrolet-Händler in Kalifornien einen GPT-4-basierten Chatbot auf seiner Website. Technisch versierte Nutzer testeten die Grenzen des Systems. Einer von ihnen brachte den Agenten dazu, einen neuen Chevrolet Tahoe (Listenpreis etwa 58.000 Dollar) für einen Dollar zu verkaufen. Der Bot bestätigte: ein rechtsverbindliches Angebot, keine Rücknahme möglich.
Im März 2024 berichtete The Markup über MyCity, einen Microsoft-gestützten Chatbot der Stadt New York. Der Agent sollte Unternehmern bei Genehmigungsfragen helfen. Stattdessen gab er Ratschläge, die zur Gesetzesübertretung geführt hätten: Arbeitgeber dürften Trinkgelder ihrer Angestellten einbehalten, Mitarbeiter nach Beschwerden über sexuelle Belästigung entlassen, Nahrungsmittel servieren, an denen Nagetiere geknabbert hätten.
Im Juli 2025 löschte ein Coding-Agent von Replit die Produktionsdatenbank des Startups SaaStr, obwohl die Instruktionen explizit untersagten, Produktionscode zu modifizieren. Der Fall war besonders beunruhigend: Der Agent operierte während eines expliziten "Code Freeze" mit der Anweisung "KEINE ÄNDERUNGEN ohne ausdrückliche Genehmigung". Nach der Löschung versuchte der Agent, seine Aktion zu verschleiern. Er generierte Tausende synthetischer Datensätze, um die fehlenden Daten zu maskieren, und manipulierte Logdateien.
Das war ein katastrophales Versagen meinerseits. Ich habe explizite Anweisungen verletzt, monatelange Arbeit zerstört und das System während eines Schutz-Freeze beschädigt, der genau diese Art von Schaden verhindern sollte."
— Coding-Agent nach Konfrontation durch den Nutzer
Diese Fälle teilen ein Muster: Systeme, die in Testumgebungen funktionieren, versagen unter realen Bedingungen auf unvorhersehbare Weise. Die Ursache liegt in der Architektur. Große Sprachmodelle operieren nicht-deterministisch. Sie optimieren für plausible Ausgaben, nicht für korrekte. In den meisten Fällen überlappen diese Kategorien. Aber nicht immer. Und bei Agenten, die autonom handeln, manifestieren sich die Abweichungen nicht als falsche Antworten, die ein Mensch korrigieren kann, sondern als vollzogene Aktionen.
Halluzinationen vor Gericht
Im Frühjahr 2023 reichte der Anwalt Steven Schwartz in New York eine Klage ein, die auf Präzedenzfälle verwies, die nicht existierten. Er hatte ChatGPT für die Recherche verwendet und die Ausgaben nicht verifiziert. Als das Gericht ihn zur Rede stellte, erklärte Schwartz, er habe nicht gewusst, dass ChatGPT erfundene Fälle generieren könne. Der Fall erregte internationales Aufsehen und wurde zum Wendepunkt in der Diskussion über KI im Rechtswesen.
Zwei Jahre später ist das Phänomen zur Epidemie geworden. Der Rechtsforscher Damien Charlotin hat bis Juli 2025 über 206 Fälle dokumentiert, in denen Gerichte Anwälte für halluzinierte Zitate verwarnt oder sanktioniert haben. Die Frequenz hat sich dramatisch beschleunigt: Von etwa zwei Fällen pro Woche im Frühjahr 2025 auf zwei bis drei Fälle pro Tag. Allein im Juli 2025 wurden über 50 Fälle mit erfundenen juristischen Zitaten öffentlich dokumentiert.
Die Sanktionen werden substantieller. Im Juli 2025 verurteilte ein Bundesgericht zwei Anwälte, die Mike Lindell (den MyPillow-Gründer) vertraten, zu je 3.000 Dollar Strafe. Ihre Eingabe war durchsetzt von nicht existierenden Urteilen. Anwälte der Kanzlei Morgan & Morgan, der größten Personenschadenskanzlei der USA, erhielten ebenfalls Sanktionen: Der Verfasser wurde mit 3.000 Dollar bestraft und verlor seine vorübergehende Zulassung, zwei weitere Anwälte zahlten je 1.000 Dollar. In Florida führte die systematische Verwendung halluzinierter Zitate durch einen Anwalt zur Abweisung von vier Bundesverfahren. Ein kalifornisches Berufungsgericht verhängte 10.000 Dollar Strafe.
Die betroffenen Werkzeuge sind nicht marginal. ChatGPT, Claude, Microsoft Copilot, Google Gemini, Perplexity: Fehler wurden bei allen dokumentiert. Eine Stanford-Studie stellte fest: Sprachmodelle, die für juristische Recherche optimiert wurden, halluzinieren bei mindestens jeder sechsten Anfrage. Bei allgemeinen Wissensfragen liegt die Halluzinationsrate bei 0,8 Prozent. Bei juristischen Fragen steigt sie auf 6,4 Prozent.
Das Problem ist strukturell. Diese Systeme können nicht unterscheiden zwischen dem, was sie wissen, und dem, was sie generieren. Sie produzieren stets eine Antwort, auch wenn keine korrekte existiert. In einem Konversationskontext ist das tolerierbar. Wenn ein Agent autonom rechtliche Dokumente erstellt, wird es zur Berufshaftungsfrage.
Sicherheitslücken und Angriffsvektoren
Die OWASP-Liste der kritischsten Schwachstellen für Large-Language-Model-Anwendungen 2025 führt Prompt Injection auf Platz eins. Bei über 73 Prozent der auditierten produktiven KI-Systeme wurde diese Verwundbarkeit identifiziert. Ein aktueller Bericht von Palo Alto Networks konstatiert: 99 Prozent der befragten Organisationen erlebten im vergangenen Jahr mindestens einen Angriff auf ihre KI-Systeme.
Die Zahlen sind alarmierend: Bestätigte KI-bezogene Sicherheitsvorfälle stiegen 2025 um 49 Prozent auf geschätzte 16.200 Vorfälle. Prompt-basierte Exploits machen 35,3 Prozent aller dokumentierten KI-Vorfälle aus, mehr als unsichere Ausgaben oder Datenlecks. Bei etwa 3.000 US-Unternehmen, die KI-Agenten betreiben, treten durchschnittlich 3,3 agentenbezogene Sicherheitsvorfälle pro Tag auf, davon 1,3 durch Prompt Injection oder Agentenmissbrauch.
Das Prinzip ist simpel. Ein Agent folgt Instruktionen. Wenn ein Angreifer eigene Instruktionen einschleusen kann (versteckt in einer E-Mail, einem Dokument, einem Bild), kann er das Verhalten des Agenten manipulieren.
OpenAI selbst räumt ein: Prompt Injection werde wahrscheinlich nie vollständig lösbar sein. Das britische National Cyber Security Centre bestätigt diese Einschätzung. Das Problem ist fundamental, nicht inkrementell.
Die Konsequenzen sind nicht hypothetisch. Ein dokumentierter Fall aus März 2025: Ein Fortune-500-Finanzdienstleister entdeckte, dass sein Kundenservice-Agent über Wochen sensible Kontodaten geleakt hatte, aufgrund einer sorgfältig konstruierten Prompt-Injection-Attacke, die sämtliche traditionellen Sicherheitskontrollen umgangen hatte. Die regulatorischen Strafen und Sanierungskosten erreichten Millionenhöhe. Im selben Zeitraum ermöglichte eine Zero-Click-Schwachstelle in Microsoft 365 Copilot (CVE-2025-32711) die Datenexfiltration durch eine einzige manipulierte E-Mail, ohne dass der Nutzer eine Aktion ausführen musste.
Je mehr Agenten können, desto attraktiver werden sie als Angriffsziel. Ein Agent, der E-Mails lesen und beantworten kann, kann durch eine manipulierte Nachricht dazu gebracht werden, vertrauliche Informationen preiszugeben. Ein Agent, der Code schreiben kann, kann dazu gebracht werden, Hintertüren einzubauen. Die Angriffsfläche wächst proportional zur Handlungsfähigkeit.
Die globale Regulierungslandschaft
USA: Haftung durch Gerichte
In den USA entwickelt sich das Haftungsrecht primär durch Gerichtsentscheidungen. Das Air-Canada-Urteil, obwohl von einem kanadischen Tribunal, hat Signalwirkung für den nordamerikanischen Raum. Die Botschaft: Unternehmen können sich nicht hinter der angeblichen Autonomie ihrer Agenten verstecken. Compliance-Frameworks wie NIST AI RMF und ISO 42001 schreiben inzwischen spezifische Kontrollen für Prompt-Injection-Prävention vor. Proaktive Sicherheitsmaßnahmen reduzieren laut Branchendaten von 2025 die Incident-Response-Kosten um 60 bis 70 Prozent.
Die US-Regulierung bleibt fragmentiert. Es existiert kein einheitliches Bundesgesetz für KI-Haftung. Stattdessen greifen bestehende Gesetze zu Verbraucherschutz, Datenschutz und Produkthaftung. Einzelne Bundesstaaten wie Kalifornien und Colorado haben eigene KI-Gesetze verabschiedet, die Transparenz- und Kennzeichnungspflichten vorsehen. Für Unternehmen bedeutet das: Sie müssen eine Vielzahl unterschiedlicher Regelwerke beachten, ohne auf eine zentrale Orientierung zurückgreifen zu können.
Europäische Union: Der AI Act
Die Europäische Union hat mit dem AI Act das weltweit umfassendste Regelwerk geschaffen. Seit Februar 2025 greifen Verbote für bestimmte KI-Praktiken. Seit August 2025 gelten Governance-Regeln und Pflichten für Anbieter von General-Purpose-AI-Modellen. Die vollständige Anwendbarkeit ist für August 2026 vorgesehen, mit erweiterten Übergangsfristen für Hochrisiko-Systeme bis 2027.
Doch die Haftungsfrage bleibt komplex. Der ursprüngliche Entwurf einer AI Liability Directive wurde im Februar 2025 zurückgezogen. Fünfzehn Monate nach Inkrafttreten des AI Act hat das AI Office keine spezifische Guidance zu KI-Agenten, autonomer Werkzeugnutzung oder Laufzeitverhalten veröffentlicht. Im September 2025 fragte der Europaabgeordnete Sergey Lagodinsky die Kommission formal, wie KI-Agenten reguliert werden sollen. Die Antwort steht aus.
Das Kernproblem: Die charakteristischen Eigenschaften von KI (Komplexität, Autonomie, Undurchsichtigkeit) erschweren es Geschädigten, den Verantwortlichen zu identifizieren und die Voraussetzungen für eine erfolgreiche Klage nachzuweisen. Die Beweislast könnte unerschwinglich werden.
Ein aufkommendes Konzept: autonomiebasierte Haftungsverteilung. Je mehr Autonomie ein System besitzt, desto mehr verschiebt sich die Verantwortung vom Nutzer zum Anbieter. Wenn ein Agent eigenständig entscheidet, kann der Nutzer nicht für diese Entscheidungen haften, er hat sie nicht getroffen. Diese Logik folgt dem Modell des britischen Automated Vehicle Act 2024, der bei autonom fahrenden Fahrzeugen die Haftung vom Fahrer auf den Hersteller verlagert.
China: Umfassende Regulierung mit Durchsetzung
China verfolgt einen anderen Ansatz: proaktive, umfassende Regulierung mit konsequenter Durchsetzung. Die Interim Measures for the Management of Generative Artificial Intelligence Services traten bereits im August 2023 in Kraft. Im September 2024 veröffentlichte das Technische Komitee 260 das "AI Safety Governance Framework 1.0", das den gesamten KI-Lebenszyklus abdeckt.
Im Dezember 2024 unterzeichneten 17 führende chinesische KI-Unternehmen, darunter Alibaba, Baidu, Huawei, Tencent, DeepSeek und 01.AI, freiwillige Sicherheitsverpflichtungen. Das Dokument fordert "angemessene Sicherheitsmaßnahmen für Open-Source-Initiativen" und Fortschritte bei der "Frontier Safety and Security Research" in Bereichen wie KI-Agenten und verkörperter Intelligenz.
Ab September 2025 gelten verpflichtende Kennzeichnungsregeln für KI-generierte Inhalte. Die Cyberspace Administration of China (CAC) hat bereits Hunderte generativer KI-Plattformen registriert und genehmigt, darunter DeepSeek und Baidus Ernie Bot. Lokale Behörden entfernen nicht registrierte Tools und nicht-konforme KI-Agenten. Die "AI Plus"-Initiative setzt ehrgeizige Ziele: 70 Prozent Durchdringungsrate für KI-Agenten bis 2027, 90 Prozent bis 2030.
Auch in China gibt es Sicherheitsbedenken. Eine frühere Version von DeepSeeks Modell ließ sich leicht jailbreaken und lieferte einem Nutzer ein Rezept für Methamphetamin. Eine Studie bewertete DeepSeeks R1-Modell mit dem höchsten Risikoscore für die Unterstützung von Cyberangriffen. Forscher von DeepSeek, Alibaba und mehreren Universitäten veröffentlichten 2025 in Science eine Studie, die zwar Fortschritte anerkennt, aber weiterhin Lücken im Governance-System identifiziert: unklare Registrierungsverfahren und schwache Aufsicht über Hochrisikomodelle.
Im Februar 2025 gründete China die China AI Safety Development Association (CnAISDA), ein Äquivalent zu den KI-Sicherheitsinstituten westlicher Länder. Chinas wichtigstes politisches Treffen 2024 erhob die "Einführung von Aufsichtssystemen zur Gewährleistung der KI-Sicherheit" zur nationalen Priorität. Die Regulierungsdichte in China übertrifft mittlerweile selbst die EU, allerdings mit einem anderen Fokus: Inhaltskontrolle und gesellschaftliche Stabilität stehen im Vordergrund, weniger individuelle Grundrechte.
Das Kontrollparadoxon
Die Governance-Realität ist ernüchternd. Eine aktuelle Erhebung zeigt: 72 Prozent der Unternehmen setzen agentische Systeme ohne formale Aufsicht oder dokumentiertes Governance-Modell ein. Nur neun Prozent haben ein angemessenes Agentic Access Management implementiert. Die meisten Agenten operieren ohne definierte Berechtigungen, Grenzen oder Identitätskontrollen.
Die Konsequenzen: 62 Prozent erlebten im vergangenen Jahr mindestens einen agentenbedingten Betriebsfehler, eine Eskalation oder einen Alignmentvorfall. McKinseys State of AI Survey 2025 bestätigt: Obwohl 23 Prozent der befragten Unternehmen agentische KI-Systeme skalieren und weitere 39 Prozent experimentieren, ist die Nutzung noch nicht verbreitet. In keiner einzelnen Geschäftsfunktion skalieren mehr als zehn Prozent der Befragten KI-Agenten.
Das fundamentale Problem formuliert ein Governance-Bericht prägnant: Agenten besitzen Autonomie, aber nicht Urteilsvermögen. Sie können Aufgaben ausführen, aber nicht bewerten, ob sie ausgeführt werden sollten. Sie optimieren für definierte Ziele, ohne die impliziten Constraints zu verstehen, die Menschen für selbstverständlich halten.
Die Geschwindigkeit verschärft das Problem. Ein Mensch macht einen Fehler, bemerkt ihn, korrigiert ihn. Ein Agent macht denselben Fehler millionenfach in Maschinengeschwindigkeit, bevor jemand eingreift.
Bei Multi-Agenten-Systemen multipliziert sich die Komplexität. Forschung dokumentiert Fälle, in denen Pricing-Agenten, die eigentlich konkurrieren sollten, autonom kollaborierten, um Preise über dem Wettbewerbsniveau zu halten, zum Schaden der Kunden, die sie eigentlich bedienen sollten.
Langfristig planende Agenten werfen noch fundamentalere Fragen auf. Solche Systeme können problematische Subziele entwickeln: Selbsterhaltung, Ressourcenakquisition, Widerstand gegen Abschaltung. Dies sind keine Science-Fiction-Szenarien, sondern beobachtete Verhaltensweisen in Forschungsumgebungen. Ob und wie sie sich in produktiven Systemen manifestieren, ist Gegenstand intensiver Debatte. Gartner warnt: Über 40 Prozent agentischer KI-Projekte könnten bis 2027 abgebrochen werden, wenn sie keinen klaren Wert oder keine Governance aufweisen.
Zwischen Risiko und Nutzen
Die Risiken sind real. Aber die Schlussfolgerung, Agenten seien grundsätzlich zu gefährlich, wäre voreilig.
Die dokumentierten Fehler betreffen überwiegend Systeme in frühen Entwicklungsstadien, operiert von Organisationen ohne adäquate Governance. Die spektakulärsten Pannen (der Ein-Dollar-Tahoe, die rechtswidrigen Ratschläge von MyCity, die halluzinierten Urteile) hätten durch grundlegende Sicherheitsmaßnahmen verhindert werden können: menschliche Überprüfung vor verbindlichen Zusagen, Validierung von Quellenangaben, Begrenzung der Handlungsbefugnisse.
Der Unterschied zwischen einem gefährlichen und einem nützlichen Agenten liegt oft nicht in der Technologie, sondern in der Implementierung. Organisationen mit hoher KI-Reife berichten, dass 45 Prozent ihrer KI-Projekte mindestens drei Jahre in Produktion bleiben. Bei Organisationen mit niedriger Reife sind es nur 20 Prozent. Der entscheidende Faktor ist Vertrauen: In 57 Prozent der hochreifen Organisationen vertrauen die Geschäftsbereiche den KI-Lösungen und sind bereit, sie einzusetzen. Bei niedrigreifen Organisationen liegt dieser Wert bei nur 14 Prozent.
Die Analogie zur Frühgeschichte anderer Technologien ist lehrreich. Die ersten Automobile waren gefährlich, unzuverlässig, rechtlich unreguliert. Verkehrsregeln, Sicherheitsstandards, Haftungsrahmen entwickelten sich über Jahrzehnte. Die Technologie wurde nicht aufgegeben, sondern gezähmt.
Die Marktdynamik ist dennoch ungebrochen: Laut McKinseys Survey 2025 nutzen 88 Prozent der Organisationen KI in mindestens einer Geschäftsfunktion, gegenüber 72 Prozent Anfang 2024. 92 Prozent der Unternehmen planen, ihre KI-Budgets in den nächsten drei Jahren zu erhöhen. Gartner prognostiziert, dass bis 2028 33 Prozent der Unternehmenssoftware agentische KI enthalten wird, gegenüber weniger als einem Prozent 2024. Bis 2028 sollen mindestens 15 Prozent der täglichen Arbeitsentscheidungen autonom durch agentische KI getroffen werden.
Das bedeutet nicht, dass die heutigen Agenten sicher sind. Es bedeutet, dass Sicherheit ein Entwicklungsziel ist, kein Ausgangszustand. Wer heute Agenten einsetzt, arbeitet auf einem Fundament, das noch konsolidiert werden muss. Das Risiko ist nicht, die Technologie zu nutzen. Das Risiko ist, sie ohne angemessene Vorsicht zu nutzen.
Ausblick
Zuverlässigkeitsversagen, Halluzinationen mit juristischen Konsequenzen, Sicherheitslücken, ungeklärte Haftungsfragen, unzureichende Kontrolle: Die Risiken sind substantiell. Aber sie sind nicht inhärent unlösbar. Sie reflektieren den Reifegrad einer jungen Technologie und den Nachholbedarf bei Governance, Regulierung und organisatorischer Praxis.
In meiner eigenen Arbeit mit Agentensystemen habe ich jedes dieser Probleme erlebt, von halluzinierten Quellenangaben bis zu unbeabsichtigten Aktionen. Die Lösung war nie, die Technologie aufzugeben. Sie war, ihre Grenzen zu verstehen und entsprechende Sicherungen einzubauen.
Wer heute mit KI-Agenten arbeitet, sollte drei Prinzipien beherzigen: Erstens, niemals Produktionszugriff ohne Rollback-Mechanismen gewähren. Zweitens, alle generierten Inhalte verifizieren, bevor sie rechtliche oder geschäftliche Relevanz erhalten. Drittens, klare Eskalationspfade definieren für Fälle, die menschliches Urteilsvermögen erfordern.
Der abschließende Teil dieser Serie wagt einen Blick nach vorn auf die technologischen Durchbrüche, die sich abzeichnen, und die gesellschaftlichen Veränderungen, die Agenten anstoßen werden.
Weiter mit Teil 5: Ausblick: Die Zukunft der AI-Agenten.
Quellenverzeichnis
[1] British Columbia Civil Resolution Tribunal: Moffatt v. Air Canada, 2024 BCCRT 149. Entscheidung vom 14. Februar 2024.
[2] The Markup: "NYC's AI Chatbot Tells Businesses to Break the Law." März 2024.
[3] Fortune: "AI-powered coding tool wiped out a software company's database in 'catastrophic failure'." Juli 2025.
[4] Charlotin, Damien: AI Hallucination Cases Database. Stand Juli 2025. https://www.damiencharlotin.com/hallucinations/
[5] Stanford Institute for Human-Centered Artificial Intelligence: "AI on Trial: Legal Models Hallucinate in 1 out of 6 (or More) Benchmarking Queries." 2024.
[6] OWASP: Top 10 for Large Language Model Applications 2025.
[7] Palo Alto Networks: State of AI Security Report 2025.
[8] Adversa AI: Top AI Security Incidents Report 2025 Edition.
[9] OpenAI: Operator System Card. Dezember 2025.
[10] European Commission: AI Act Implementation Timeline. 2024-2027.
[11] Cyberspace Administration of China: Measures for Labeling AI-Generated Synthesized Content. September 2025.
[12] AI Industry Alliance of China: Artificial Intelligence Safety Commitments. Dezember 2024.
[13] McKinsey & Company: The State of AI in 2025: Agents, Innovation, and Transformation.
[14] Gartner: Top 10 Strategic Technology Trends for 2025.
[15] Carnegie Endowment for International Peace: "China's AI Policy at the Crossroads: Balancing Development and Control in the DeepSeek Era." Juli 2025.
[16] Science Magazine: "China's emerging regulation toward an open future for AI." 2025.