Teil 2: Technik: Wie AI-Agenten funktionieren

Ein Agent soll die Wetterprognose für Berlin abrufen und das Ergebnis per E-Mail versenden. Die Aufgabe wirkt trivial: Wetterdienst konsultieren, Informationen notieren, Mail verfassen, absenden. Doch was geschieht zwischen dem Moment der Auftragserteilung und der Bestätigung 'Aufgabe erledigt'?

Die Antwort auf diese Frage führt ins Innere der Agentenarchitektur. Teil 1 dieser Serie hat dargestellt, was AI-Agenten von Chatbots unterscheidet und welche Anwendungen sie ermöglichen. Dieser Teil erklärt die technischen Mechanismen, die diese Fähigkeiten ermöglichen: den Reasoning-Action-Zyklus, die Werkzeugnutzung, das Gedächtnisproblem und Multi-Agenten-Architekturen.

Der Reasoning-Action-Zyklus

Im Zentrum jeder Agentenarchitektur steht ein iterativer Prozess, den die Forschungsliteratur als 'ReAct' bezeichnet, ein Akronym für 'Reasoning and Acting' (Schlussfolgern und Handeln). Das Prinzip ist elegant, seine Implikationen sind weitreichend. Das ursprüngliche ReAct-Paper von Yao et al. aus dem Jahr 2022 demonstrierte, dass die Kombination von explizitem Denken und Handeln die Leistung von Sprachmodellen bei komplexen Aufgaben signifikant verbessert. ^[1]

Der Zyklus gliedert sich in drei Phasen:

Analyse und Planung

Der Agent evaluiert die aktuelle Situation. Er identifiziert das definierte Ziel, prüft welche Informationen bereits vorliegen und welche noch fehlen. Er protokolliert seine Überlegungen häufig in textueller Form, was spätere Fehleranalysen ermöglicht. Dieses explizite 'Denken laut' unterscheidet moderne Agenten von früheren Automatisierungssystemen, die ihre Entscheidungslogik nicht offenlegten.

Aktion

Basierend auf dieser Analyse wählt der Agent eine konkrete Handlung. Dies kann der Aufruf einer Programmierschnittstelle sein, eine Datenbankabfrage, die Steuerung eines Webbrowsers oder die Manipulation einer Datei. Die Auswahl erfolgt nicht zufällig, sondern auf Basis einer erlernten Einschätzung, welche Aktion den größten Fortschritt zum Ziel verspricht. Moderne Agenten können dabei aus Hunderten verfügbarer Werkzeuge das passende auswählen, eine Fähigkeit, die noch vor wenigen Jahren als schwer realisierbar galt.

Observation

Die Aktion produziert ein Ergebnis. Der Agent nimmt dieses Ergebnis auf, integriert es in seinen Wissensstand und initiiert den nächsten Durchlauf des Zyklus. Wenn das Ergebnis unerwartet ist oder auf einen Fehler hindeutet, passt der Agent seine Strategie an.

Dieser Prozess ist seiner Natur nach iterativ. Er terminiert, wenn das definierte Ziel erreicht ist, ein Abbruchkriterium greift (etwa eine maximale Anzahl von Iterationen) oder der Agent die Unerreichbarkeit des Ziels feststellt. In der Praxis begrenzen die meisten Implementierungen die Iterationszahl auf zehn bis fünfzig Durchläufe, um unkontrollierten Ressourcenverbrauch zu vermeiden.

Konkretisiert am Wetterbeispiel: Im ersten Durchlauf identifiziert der Agent den Bedarf an Wetterdaten und ruft die entsprechende Schnittstelle auf. Er erhält: zwölf Grad Celsius, bewölkt, 40 Prozent Niederschlagswahrscheinlichkeit. Im zweiten Durchlauf erkennt er, dass die Informationen vorliegen, formuliert die E-Mail und versendet sie über die Mail-API. Im dritten Durchlauf stellt er fest: Ziel erreicht. Der Prozess terminiert.

Drei Iterationen, zwei externe Interaktionen, ein abgeschlossener Auftrag. Diese Architektur ermöglicht es Agenten, Aufgaben zu bewältigen, deren Lösungsweg nicht im Voraus festgelegt werden kann. Der Agent 'entdeckt' den Lösungsweg während der Ausführung, anstatt einem vorprogrammierten Skript zu folgen.

Werkzeuge und Schnittstellen

Ein Sprachmodell, das ausschließlich Text generiert, bleibt ein elaborierter Gesprächspartner. Es kann Informationen zusammenfassen, Fragen beantworten und Texte formulieren, aber es kann nicht in die Welt eingreifen. Erst die Fähigkeit, externe Systeme anzusteuern, macht es zum Agenten. Diese Unterscheidung ist fundamental: Ein Chatbot beschreibt, was getan werden könnte. Ein Agent tut es.

Diese Fähigkeit realisiert sich technisch durch sogenanntes 'Function Calling' (Funktionsaufruf). Das Konzept: Dem Agenten werden verfügbare Werkzeuge in strukturierter Form beschrieben. Eine solche Beschreibung könnte lauten: 'Es existiert eine Funktion get_weather_forecast. Sie akzeptiert einen Ortsparameter und gibt meteorologische Daten zurück.'

Der Agent erkennt anhand seiner Aufgabenstellung, welches Werkzeug benötigt wird, und generiert einen entsprechenden Funktionsaufruf, typischerweise in JSON-Notation, mit sämtlichen erforderlichen Parametern. Entscheidend: Der Agent führt die Funktion nicht selbst aus. Er formuliert lediglich den Aufruf. Die tatsächliche Ausführung obliegt der umgebenden Infrastruktur, die den JSON-Output interpretiert, die reale Schnittstelle kontaktiert und das Ergebnis an den Agenten zurückspielt.

Diese Architektur ist kein technisches Detail, sondern ein zentraler Sicherheitsmechanismus. Der Agent bestimmt, was geschehen soll. Ob es geschieht, kontrolliert der Entwickler. Diese Trennung ermöglicht es, Genehmigungsschritte einzubauen, bevor kritische Aktionen ausgeführt werden, etwa finanzielle Transaktionen oder Datenlöschungen.

Das Spektrum typischer Werkzeuge umfasst:

Websuchmaschinen für Informationsrecherchen
Datenbankschnittstellen für strukturierte Abfragen
Code-Interpreter für Berechnungen und Datenverarbeitung
Dateisystemoperationen für persistente Speicherung
Kommunikationsschnittstellen für Messaging-Dienste, E-Mail, CRM-Systeme
Browser-Automatisierung für Interaktionen mit Webseiten

Das Model Context Protocol

Seit November 2024 existiert mit dem Model Context Protocol (MCP) von Anthropic ein Standardisierungsansatz für diese Schnittstellen. Die Vision: Statt proprietärer Integrationen für jeden Dienst definiert MCP ein einheitliches Protokoll. Ein Agent, der dieses Protokoll implementiert, kann theoretisch mit jedem MCP-kompatiblen Dienst interagieren, ohne dienstspezifische Anpassungen.

Die Adoptionszahlen sind beeindruckend. Ein Jahr nach dem Launch verzeichnet MCP über 97 Millionen monatliche SDK-Downloads. Auf der Registry PulseMCP sind über 5.500 Server gelistet, und bis Februar 2025 hatte die Community bereits über 1.000 Konnektoren für verschiedene Werkzeuge entwickelt. Im März 2025 adoptierte OpenAI das Protokoll offiziell und integrierte es in die ChatGPT-Desktop-App. Google DeepMind folgte kurz darauf. ^[2]

Im Dezember 2025 übertrug Anthropic MCP an die Agentic AI Foundation (AAIF), einen von Anthropic, Block und OpenAI gegründeten Fonds unter dem Dach der Linux Foundation. Damit ist MCP vom Projekt eines einzelnen Unternehmens zum Industriestandard geworden. Die Entwicklungsrichtung ist eindeutig: Agenten benötigen interoperable Standards, keine isolierten Punktlösungen.

Das Gedächtnisproblem

Hier offenbart sich eine der gravierendsten Einschränkungen der aktuellen Technologie.

Sprachmodelle operieren innerhalb eines sogenannten Kontextfensters. Claude verarbeitet circa 200.000 Token pro Anfrage, GPT-4 etwa 128.000, Googles Gemini 1.5 Pro sogar bis zu einer Million Token. Diese Kapazitäten wirken beträchtlich. 200.000 Token entsprechen etwa 150.000 Wörtern oder einem Buch von 500 Seiten. Doch sie stoßen an Grenzen, wenn man versucht, einen Agenten über Tage oder Wochen mit konsistenten Informationen zu betreiben.

Denn alles, was außerhalb dieses Fensters liegt, existiert für das Modell schlichtweg nicht. Es gibt kein Äquivalent zum menschlichen Langzeitgedächtnis. Jede Anfrage beginnt, technisch betrachtet, bei null. Ein Agent, der gestern eine komplexe Analyse durchgeführt hat, 'erinnert' sich heute nicht daran, es sei denn, die relevanten Informationen werden explizit in den Kontext geladen.

Vektordatenbanken und RAG

Die Lösung: externes Gedächtnis, realisiert durch Vektordatenbanken.

Das Funktionsprinzip: Textuelle Inhalte werden in hochdimensionale numerische Repräsentationen transformiert, sogenannte Embeddings. Semantisch verwandte Texte werden zu Vektoren, die im mathematischen Raum nahe beieinander liegen. Benötigt der Agent später eine Information, durchsucht er nicht sequenziell Tausende Dokumente. Er fragt: Welche gespeicherten Vektoren weisen die geringste Distanz zu meiner aktuellen Fragestellung auf?

Systeme wie Pinecone, Milvus oder FAISS implementieren exakt diese Funktionalität. Sie persistieren Vektoren und liefern in Millisekunden die relevantesten Treffer. Das umgebende Architekturkonzept trägt die Bezeichnung RAG, 'Retrieval Augmented Generation' (abrufgestützte Generierung). Der Agent generiert nicht nur, er ruft vorher relevantes Wissen ab.

Der RAG-Markt entwickelt sich rasant. Laut Grand View Research wuchs er von 1,2 Milliarden Dollar im Jahr 2024 auf prognostizierte 11 Milliarden Dollar bis 2030, ein jährliches Wachstum von 49 Prozent. Eine Snowflake-Erhebung zeigt: 71 Prozent der frühen GenAI-Adopter implementieren bereits RAG, um ihre Modelle mit externem Wissen zu verankern. 73 Prozent aller RAG-Implementierungen finden in Großunternehmen statt. ^[3]

Praktisch bedeutet dies: Ein Agent kann Informationen 'erinnern', die ihm Wochen zuvor mitgeteilt wurden, vorausgesetzt, diese wurden in der Vektordatenbank persistiert. Ein Kundenservice-Agent kann beispielsweise die gesamte Produktdokumentation eines Unternehmens durchsuchen, ohne dass diese bei jeder Anfrage vollständig in den Kontext geladen werden muss.

Die Grenzen von RAG

Doch RAG stößt an Grenzen. Die Forschung zeigt zunehmend: Für anspruchsvolle Agentensysteme reicht einfaches RAG nicht aus. Wenn ein Agent über multiple Sitzungen hinweg operieren soll, wenn er zwischen faktischem Weltwissen und eigenen Beobachtungen differenzieren muss, benötigt er elaboriertere Gedächtnisarchitekturen.

Ein Forschungsprojekt namens 'Hindsight' partitioniert das Agentengedächtnis in vier distinkte Netzwerke: verifizierte Fakten über die Welt, eigene Erfahrungen, aggregierte Entitätsinformationen und sich entwickelnde Überzeugungen. Die Komplexität dieses Ansatzes korrespondiert mit der Komplexität des Problems, das er adressiert. ^[4]

Das Konzept des 'Agentic RAG' gewinnt an Bedeutung: RAG-Systeme, die nicht nur passiv Informationen abrufen, sondern aktiv entscheiden, wann, wie und welche Informationen relevant sind. Diese Systeme können mehrere Datenquellen orchestrieren, Ergebnisse validieren und bei Bedarf nachfragen. Ein Agentic-RAG-System könnte etwa erkennen, dass eine Anfrage sowohl interne Unternehmensdaten als auch aktuelle Marktinformationen erfordert, beide Quellen abfragen, die Ergebnisse auf Konsistenz prüfen und bei Widersprüchen gezielt nachhaken.

Die praktischen Implikationen sind erheblich. Unternehmen, die ihre Dokumentation, Wissensbasis und historischen Daten in Vektordatenbanken überführen, schaffen damit das Fundament für Agenten, die auf dem kollektiven Wissen der Organisation aufbauen können. Die Investition in diese Infrastruktur zahlt sich langfristig aus.

Multi-Agenten-Architekturen

Die bisherige Betrachtung fokussierte auf singuläre Agenten. Doch die nächste Entwicklungsstufe sind Systeme, in denen mehrere Agenten kollaborieren.

Multi-Agenten-Systeme repräsentieren einen Paradigmenwechsel. Das Grundprinzip: Statt einen generalistischen Agenten zu konstruieren, der sämtliche Aufgaben bewältigt (und keine exzellent), werden spezialisierte Agenten entwickelt, die miteinander kommunizieren. Die Daten zeigen, dass 66 Prozent aller Agentenimplementierungen bereits Multi-Agenten-Designs verwenden. ^[5]

Ein illustratives Beispiel: Die Erstellung eines Fachartikels. Agent A recherchiert das Themenfeld und sammelt relevante Quellen. Agent B verfasst einen Rohentwurf auf Basis dieser Recherche. Agent C überprüft faktische Korrektheit und sprachliche Qualität, markiert Fehler und schlägt Verbesserungen vor. Agent D formatiert das Endprodukt und erstellt bei Bedarf Grafiken oder Tabellen. Jeder Agent führt seine Kernkompetenz aus; das Kollektiv produziert ein Resultat, das ein singulärer Generalist in vergleichbarer Qualität nicht erreichen würde.

Die Analogie zur menschlichen Arbeitswelt liegt nahe: Auch Unternehmen organisieren sich in spezialisierten Teams, weil Spezialisierung Effizienz und Qualität steigert. Multi-Agenten-Systeme übertragen dieses Prinzip auf Software.

Orchestrierungsmuster

Die Orchestrierung, die Koordination, welcher Agent wann welche Aufgabe übernimmt, stellt dabei die größte technische Herausforderung dar. Etablierte Muster umfassen:

Sequenzielle Orchestrierung

Agent A arbeitet, übergibt an B, B an C. Eine lineare Prozesskette, vergleichbar einem industriellen Fließband. Dieses Muster eignet sich für Aufgaben mit klar definierten, aufeinander aufbauenden Schritten.

Parallele Orchestrierung

Multiple Agenten bearbeiten simultan verschiedene Aspekte derselben Aufgabe. Zeiteffizient, aber koordinationsintensiv. Ein Recherche-Agent, ein Analyse-Agent und ein Visualisierungs-Agent können gleichzeitig an verschiedenen Teilen eines Reports arbeiten.

Hierarchische Orchestrierung

Ein übergeordneter 'Manager-Agent' delegiert Aufgaben an spezialisierte Unteragenten und synthetisiert deren Ergebnisse. Dieses Muster skaliert besser bei komplexen Aufgaben mit vielen Teilkomponenten. Der Manager-Agent fungiert als Koordinator, der den Überblick behält und sicherstellt, dass alle Teilergebnisse zusammenpassen.

Diskursive Orchestrierung

Die Agenten diskutieren untereinander, bis ein Konsens entsteht. Geeignet für kreative oder explorative Aufgabenstellungen, bei denen der optimale Lösungsweg nicht von vornherein feststeht. Dieses Muster imitiert menschliche Brainstorming-Sitzungen, bei denen unterschiedliche Perspektiven zu besseren Lösungen führen.

Frameworks und Plattformen

Frameworks wie LangChain, LangGraph, CrewAI oder Microsoft AutoGen abstrahieren die technische Komplexität dieser Architekturen für Entwickler. Sie stellen vorgefertigte Bausteine bereit, die sich zu komplexen Agentensystemen kombinieren lassen. LangChain ist dabei das am weitesten verbreitete Framework für agentische KI und arbeitet modellunabhängig mit OpenAI, Anthropic, Google und Open-Source-Modellen wie Mistral. ^[6]

Microsoft kündigte auf der Build-Konferenz 2025 an, dass Multi-Agenten-Orchestrierung nunmehr nativ in Copilot Studio verfügbar ist. Unternehmen können Agenten konstruieren, die Aufgaben an andere Agenten delegieren, ohne proprietäre Infrastruktur betreiben zu müssen. Das neue Agent-to-Agent-Protokoll (A2A) ermöglicht sogar die Kommunikation zwischen Agenten unterschiedlicher Frameworks.

Globale Entwicklungen

Die Entwicklung von Multi-Agenten-Systemen verläuft global, mit unterschiedlichen Schwerpunkten in verschiedenen Regionen.

Europa setzt auf Standardisierung und Regulierung. Im Rahmen des EU AI Act arbeiten über 300 Experten aus mehr als zwanzig Mitgliedstaaten an technischen Standards für KI-Systeme. Im Juli 2025 veröffentlichte die EU-Kommission den 'General-Purpose AI Code of Practice', dem sich sowohl OpenAI als auch Mistral AI angeschlossen haben. Europäische Frameworks wie LangChain und CrewAI dominieren die Open-Source-Entwicklung. ^[7]

China verfolgt einen aggressiven Ansatz bei agentischen Systemen. ByteDance launchte im April 2025 seinen Agenten Coze, der Funktionen wie Datenanalyse, Berichtserstellung und App-Entwicklung bietet. Im Juli 2025 wurde Coze Studio als Open-Source-Plattform freigegeben. Baidu hat mit seiner ERNIE-Agent-Plattform über 150.000 Unternehmen gewonnen und plant, ERNIE 4.5 noch 2025 zu veröffentlichen. Alibaba veröffentlichte Qwen-Agent, Tencent Youtu-Agent. China gilt mittlerweile als führend bei Multi-Agenten-Systemen und agentischer Aufgabenorchestrierung. ^[8]

Gartner prognostiziert, dass bis 2028 in 58 Prozent aller Geschäftsfunktionen mindestens ein Prozess von Agenten gesteuert wird. Ein substantieller Anteil davon werden Multi-Agenten-Systeme sein.

Die inhärenten Grenzen

Nach dieser Darstellung der technischen Mechanismen ist eine kritische Einordnung geboten.

Die Architektur ist beeindruckend, aber nicht ohne Schwachstellen. Der ReAct-Zyklus kann in unproduktive Schleifen geraten, wenn Abbruchbedingungen inadäquat definiert sind. Ein Agent, der ein Ziel nicht erreicht, kann immer wieder dieselben erfolglosen Aktionen versuchen, bis das Iterationslimit erreicht ist.

Function Calling ist nur so präzise wie die Werkzeugbeschreibungen, die Menschen verfassen, mit allen Ambiguitäten, die natürlichsprachliche Spezifikationen mit sich bringen. Wenn eine Funktionsbeschreibung mehrdeutig ist, wird der Agent die Funktion möglicherweise in unbeabsichtigten Kontexten aufrufen.

Vektordatenbanken liefern semantisch ähnliche Ergebnisse, nicht notwendigerweise korrekte. Wenn ein Dokument falsche Informationen enthält, wird RAG diese falschen Informationen abrufen und der Agent wird auf ihrer Basis handeln. Die Qualität des Gedächtnisses ist nur so gut wie die Qualität der gespeicherten Daten.

Und Multi-Agenten-Systeme akkumulieren die Fehlerpotenziale jedes einzelnen Teilsystems. Wenn Agent A einen Fehler macht, kann Agent B diesen Fehler nicht immer erkennen und korrigieren; er baut möglicherweise darauf auf und verstärkt ihn.

Nur 16 Prozent der Enterprise-Deployments und 27 Prozent der Startup-Deployments qualifizieren sich als 'echte' Agenten, also Systeme, bei denen ein LLM plant, Aktionen ausführt, Feedback beobachtet und sein Verhalten anpasst. Die meisten Implementierungen basieren noch auf festen Sequenzen oder einfachen Routing-Workflows. ^[9]

Ausblick

ReAct-Loops, Function Calling, Vektordatenbanken, Multi-Agenten-Systeme: Das sind die Bausteine, aus denen moderne AI-Agenten bestehen. Wer diese Mechanismen versteht, kann einschätzen, was heute möglich ist und wo die Grenzen liegen.

Die technische Entwicklung verläuft schneller, als viele erwartet hatten. MCP wurde vor einem Jahr als Experiment gestartet und ist heute der De-facto-Standard für die Verbindung von Agenten mit externen Systemen. RAG ist vom Forschungskonzept zum Unternehmensstandard geworden. Multi-Agenten-Systeme bewegen sich vom Labor in die Produktion.

Diese Geschwindigkeit stellt Entwickler und Unternehmen gleichermaßen vor erhebliche Herausforderungen. Entscheidungen über Architektur und Infrastruktur, die heute getroffen werden, können in sechs Monaten überholt sein. Die beste Strategie ist oft, auf offene Standards zu setzen und flexibel zu bleiben. Die technischen Grundlagen, die dieser Teil vorgestellt hat, werden Bestand haben; die konkreten Implementierungen werden sich weiterentwickeln.

In meiner täglichen Arbeit mit diesen Systemen zeigt sich: Die Theorie ist das eine, die Praxis das andere. Manche Agenten liefern beeindruckende Ergebnisse bei komplexen Aufgaben, andere scheitern an scheinbar trivialen Problemen. Diese Diskrepanz ist noch nicht vollständig verstanden und bleibt Gegenstand aktiver Forschung. Der nächste Teil zeigt konkrete Produkte und reale Anwendungen, was funktioniert und was nicht.

Weiter mit Teil 3: Praxis: AI-Agenten im Einsatz.

Quellenverzeichnis

^[1] Yao, S. et al. (2022): 'ReAct: Synergizing Reasoning and Acting in Language Models.' arXiv:2210.03629. https://arxiv.org/abs/2210.03629

^[2] Model Context Protocol Blog (2025): 'One Year of MCP: November 2025 Spec Release.' https://blog.modelcontextprotocol.io/posts/2025-11-25-first-mcp-anniversary/

^[3] Grand View Research (2024): 'Retrieval Augmented Generation Market Size Report, 2030.' https://www.grandviewresearch.com/industry-analysis/retrieval-augmented-generation-rag-market-report

^[4] RAGFlow (2025): 'From RAG to Context - A 2025 year-end review of RAG.' https://ragflow.io/blog/rag-review-2025-from-rag-to-context

^[5] Multimodal.dev (2025): '10 AI Agent Statistics for Late 2025.' https://www.multimodal.dev/post/agentic-ai-statistics

^[6] Langflow (2025): 'The Complete Guide to Choosing an AI Agent Framework in 2025.' https://www.langflow.org/blog/the-complete-guide-to-choosing-an-ai-agent-framework-in-2025

^[7] EU Perspectives (2025): 'Mistral, OpenAI say will respect EU's AI Code of Practice.' https://euperspectives.eu/2025/07/mistral-and-openai-back-eu-ai-code-of-practice/

^[8] Rest of World (2025): 'China's AI agents take on OpenAI in global automation race.' https://restofworld.org/2025/china-ai-agent-openai/

^[9] Menlo Ventures (2025): '2025: The State of Generative AI in the Enterprise.' https://menlovc.com/perspective/2025-the-state-of-generative-ai-in-the-enterprise/

← Vorheriger Teil

Teil 1: Grundlagen: Was AI-Agenten sind

Nächster Teil →