Ein Berliner SaaS-Startup migriert seine Zahlungsabwicklung von einem monolithischen Django-Backend auf eine Microservice-Architektur. 47 Dateien müssen angefasst werden, die Abhängigkeiten zwischen den Modulen sind über Jahre gewachsen und nirgends dokumentiert. Der leitende Entwickler gibt Claude Code einen einzigen Auftrag: „Analysiere die Abhängigkeiten des Payment-Moduls, erstelle einen Migrationsplan und führe die ersten drei Schritte durch.“ 90 Minuten später liegt ein Plan mit 14 Schritten vor, die ersten drei sind umgesetzt, alle 128 bestehenden Tests laufen grün.
Solche Szenarien sind kein Ausnahmefall mehr. Anthropics interne Erhebung unter 132 eigenen Entwicklern zeigt: 59 Prozent der täglichen Arbeit entfallen mittlerweile auf Claude Code. Bis zu 50 Prozent Produktivitätssteigerung schätzen die Befragten. Parallel dazu liefert Anthropics Code-Review-Feature seit März 2026 messbare Ergebnisse: 54 Prozent der automatischen Review-Kommentare wurden von Entwicklern als substanziell eingestuft, verglichen mit 16 Prozent bei herkömmlichen Linter-Hinweisen. Keine Produktivitätsgewinne bei trivialen Aufgaben. Verbesserungen genau dort, wo Softwareprojekte am meisten Zeit verlieren: bei Komplexität.
Dieser Teil zeigt die Patterns, die sich in der Praxis bewährt haben. Fünf erprobte Abläufe für Refactoring, Testing, Legacy-Code-Analyse, Code Reviews und Debugging. Kein theoretisches Framework.
Refactoring mit Claude Code: Große Codebases sicher umbauen
Refactoring ist die Aufgabe, vor der sich Entwicklerteams am häufigsten drücken. Nicht weil die einzelnen Änderungen schwer wären, sondern weil die Summe der Seiteneffekte unüberschaubar wird. Eine Klasse umbenennen klingt trivial. Wenn diese Klasse aber in 30 Dateien importiert wird, Tests darauf verweisen, Konfigurationsdateien den alten Namen enthalten und die CI-Pipeline bestimmte Pfade erwartet, wird aus einer Minutenaufgabe ein Halbtagesprojekt. Claude Code verändert dieses Kalkül.
Es kann ein gesamtes Repository lesen, Abhängigkeitsgraphen rekonstruieren und Änderungen koordiniert über Dutzende Dateien durchführen. Fehlerfrei arbeitet es nicht. Aber der Entwickler kann sich auf Architekturentscheidungen konzentrieren, statt grep-Ergebnisse abzuarbeiten.
Viele Teams machen am Anfang denselben Fehler: Sie geben Claude Code den gesamten Umbau als einen einzigen Prompt. „Refactore das Payment-Modul“ ist zu vage. Produziert werden dann entweder oberflächliche Änderungen, oder Claude Code verliert sich in Details, die nicht zum Kernproblem gehören. Wer Refactoring ernst meint, braucht einen mehrstufigen Prozess.
Wie sieht ein typisches Refactoring-Szenario aus?
Schritt eins: Analyse. Der Entwickler bittet Claude Code, die betroffenen Module zu kartieren. Welche Dateien importieren die zu ändernde Klasse? Welche Tests decken das bestehende Verhalten ab? Gibt es zirkuläre Abhängigkeiten, die den Umbau erschweren? Claude Code liest die relevanten Dateien, erstellt eine Liste der betroffenen Stellen und präsentiert einen Überblick. Allein dieser Schritt spart bei einem mittelgroßen Projekt 30 bis 60 Minuten.
Schritt zwei: Plan. Auf Basis der Analyse erstellt Claude Code einen konkreten Refactoring-Plan. Welche Dateien werden in welcher Reihenfolge geändert? Wo liegen die Risiken? Welche Zwischenschritte können unabhängig voneinander durchgeführt werden? Ein guter Prompt für diese Phase lautet: „Erstelle einen schrittweisen Migrationsplan. Jeder Schritt muss einzeln committbar sein, ohne bestehende Tests zu brechen.“
Dieser Satz ist der Schlüssel: „einzeln committbar“. Er zwingt Claude Code, atomare Änderungen zu planen, statt alles auf einmal umzubauen. Wenn Schritt fünf fehlschlägt, sind die Schritte eins bis vier bereits gesichert. Ohne diese Vorgabe tendiert Claude Code zu einem Big-Bang-Ansatz, bei dem alle Änderungen auf einmal stattfinden. Riskant. Und schwer rückgängig zu machen.
Schritt drei: Ausführung mit Kontrolle. Claude Code arbeitet den Plan Schritt für Schritt ab, nach jedem Schritt läuft die Testsuite. Scheitert ein Test, korrigiert Claude Code den Fehler, bevor es weitergeht. Git-Commits nach jedem erfolgreichen Schritt liefern eine saubere Rollback-Kette, einfach und wirkungsvoll zugleich.
Schritt vier: Validierung. Am Ende prüft Claude Code den gesamten Umbau. Sind alle Importe korrekt? Gibt es toten Code, der von der alten Struktur übrig geblieben ist? Laufen alle Tests, nicht nur die offensichtlichen? Gerade die letzte Frage ist kritisch. Eine Prüfung mit „Vergleiche die öffentliche API vor und nach dem Refactoring“ deckt Inkompatibilitäten auf, die einzelne Tests nicht erfassen.
Besondere Beachtung verdient die Rollback-Strategie. Jeder Commit-Punkt ist ein potenzieller Rücksprung. Wenn Schritt sieben das System destabilisiert, reicht ein „git revert“, um den letzten stabilen Zustand wiederherzustellen. Funktionieren tut das allerdings nur, wenn die Schritte tatsächlich atomar sind. Sobald Claude Code zwei logisch getrennte Änderungen in einen Commit mischt, geht dieser Vorteil verloren. Klare Vorgaben im Prompt sind deshalb keine Option, sondern Pflicht.
Wie lässt sich Testabdeckung systematisch erhöhen?
Zu wenig Tests. Auf die meisten Projekte trifft das zu. Laut dem State of Testing Report 2026 von PractiTest liegt die durchschnittliche Testabdeckung bei kommerziellen Softwareprojekten unter 60 Prozent. Gleichzeitig nennt eine Mehrheit der befragten Teams unzureichende Tests als eines der größten Risiken bei Deployments. Kein Geheimnis.
Claude Code kann diese Lücke nicht schließen. Kein Tool kann das. Aber es kann den Prozess erheblich beschleunigen, wenn der richtige Ansatz gewählt wird.
Zuerst steht die Analyse der bestehenden Abdeckung. Ein Prompt wie „Führe die Testsuite mit Coverage-Report aus und identifiziere die fünf Module mit der niedrigsten Abdeckung“ liefert in Sekunden ein Bild, für das ein Entwickler sonst Coverage-Reports manuell durchforsten müsste. Claude Code liest den Report, ordnet die Ergebnisse und schlägt vor, wo Tests den größten Effekt hätten.
Dann folgt die Testgenerierung. Hier lauert die größte Falle. Claude Code erzeugt auf Knopfdruck Dutzende Unit-Tests. Groß ist die Versuchung, diese Tests einfach zu übernehmen und die Coverage-Zahl steigen zu sehen. Viele dieser Tests prüfen aber lediglich, ob eine Funktion das tut, was sie gerade tut. Sie testen die aktuelle Implementierung, nicht das gewünschte Verhalten. Solche Tests brechen bei jeder Änderung und liefern keinen echten Sicherheitsgewinn. Genau hier liegt das zentrale Risiko bei AI-generierter Testabdeckung: Quantität statt Qualität.
Nicht die Fehler im generierten Code sind dabei das eigentliche Problem, sondern die falschen Sicherheiten, die hohe Coverage-Zahlen erzeugen. Wer 90 Prozent Coverage sieht, lehnt sich zurück. Dass die Hälfte dieser Tests nur Implementierungsdetails nacherzählt, fällt erst auf, wenn ein echter Bug durchrutscht. Aus meiner Sicht ist das der am meisten unterschätzte Punkt bei AI-generiertem Code.
Besser funktioniert ein verhaltensorientierter Ansatz. Ein Prompt wie „Schreibe Tests für das UserService-Modul, fokussiere auf Grenzfälle und Fehlerszenarien statt auf den Happy Path, jeder Test soll genau ein erwartetes Verhalten beschreiben“ liefert erheblich brauchbarere Ergebnisse. Claude Code analysiert dann die Geschäftslogik, identifiziert Edge Cases und generiert Tests, die tatsächlich Rückmeldung geben, wenn sich das Verhalten ändert.
Manuelle Validierung bleibt unverzichtbar. Jeder generierte Test muss geprüft werden: Testet er das richtige Verhalten? Ist die Assertion sinnvoll? Würde der Test auch dann fehlschlagen, wenn ein echter Bug eingeführt wird? Pro Test dauert diese Prüfung wenige Minuten. Aber sie ist der Unterschied zwischen einer nützlichen Testsuite und einer, die nur Coverage-Zahlen schönt.
Für Teams mit bestehendem TDD-Workflow (Test-Driven Development) bietet Claude Code einen eleganten Einstiegspunkt. Der Entwickler schreibt den Test zuerst und lässt Claude Code die Implementierung generieren. Schlägt der Test fehl, korrigiert Claude Code den Code, bis alle Assertions erfüllt sind. Testqualität sinkt dadurch nicht. Im Gegenteil: Die Implementierung wird schneller, während der Entwickler die Kontrolle über das Testdesign behält.
Legacy-Code verstehen und dokumentieren
Jedes Softwareteam kennt diese Dateien. Sie haben kryptische Namen wie utils_v2_final.py oder processing_backup_NEW.js. Niemand weiß genau, was sie tun. Alle wissen, dass sie wichtig sind. Wer sie anfasst, riskiert Seiteneffekte, die erst Wochen später in Produktion sichtbar werden.
Claude Code löst das Problem nicht endgültig, aber es senkt die Einarbeitungshürde dramatisch. Ein Prompt wie „Lies alle Dateien im Verzeichnis src/legacy/ und erstelle eine Zusammenfassung der Architektur. Welche Module kommunizieren miteinander? Wo liegen die Einstiegspunkte?“ produziert in wenigen Minuten eine Dokumentation, für die ein neuer Entwickler sonst Tage braucht.
Die Qualität dieser Analyse hängt stark von der Codebasis ab. Bei gut strukturiertem Legacy-Code mit sprechenden Funktionsnamen liefert Claude Code brauchbare Architekturübersichten. Bei obfuskiertem oder stark verschachteltem Code sinkt die Genauigkeit. Vor allem bei impliziten Abhängigkeiten (Monkey-Patching, dynamische Imports, globale Zustandsvariablen) fehlt dem Tool der Kontext, den nur Laufzeitverhalten liefern kann.
Ein bewährtes Pattern für die Codebase-Exploration: schrittweise vertiefen. Zuerst den Gesamtüberblick erfragen. Dann gezielt in die Module eintauchen, die am wichtigsten oder am undurchsichtigsten sind. Claude Code behält den Kontext innerhalb einer Session und baut so ein immer detaillierteres Bild auf. Dieses Vorgehen ähnelt dem, was ein erfahrener Berater bei einem Code-Audit tun würde, nur deutlich schneller.
Einen kritischen Blick verdient die Dokumentationsgenerierung. Claude Code kann Docstrings, README-Dateien und Architekturdiagramme (als Mermaid-Syntax) erzeugen. Formal ist das Ergebnis korrekt und sofort nutzbar. Aber die Dokumentation beschreibt, was der Code tut, nicht warum. Geschäftliche Entscheidungen, historische Kompromisse und bekannte Schwachstellen fehlen, weil sie nicht im Code stehen. Eine von Claude Code generierte Dokumentation ist deshalb ein solider Startpunkt, den ein Mensch um Kontextwissen ergänzen muss.
Für das Onboarding neuer Teammitglieder hat sich ein konkreter Ablauf bewährt: Claude Code erstellt eine Architekturübersicht, ein Glossar der projektspezifischen Begriffe und eine Liste der wichtigsten Einstiegspunkte. Der neue Entwickler nutzt diese Unterlagen als Orientierung und stellt anschließend gezielte Fragen an Claude Code, um Details zu klären. Teams, die diesen Prozess eingeführt haben, berichten von einer deutlichen Verkürzung der Onboarding-Zeit, in einigen Fällen um bis zu 50 Prozent. Anthropics interne Daten zur Onboarding-Beschleunigung stützen diese Beobachtung.
Pull Requests und Code Reviews mit Claude Code
Code Reviews kosten Zeit. Laut Erhebungen von LinearB verbringen Entwickler im Durchschnitt über fünf Stunden pro Woche mit Reviews. Bei großen Pull Requests mit über 400 geänderten Zeilen sinkt die Review-Qualität drastisch, weil die kognitive Belastung steigt und die Aufmerksamkeit nachlässt. Claude Code adressiert beide Probleme.
Am einfachsten gelingt der Einstieg über PR-Beschreibungen. „Analysiere die Änderungen im aktuellen Branch und erstelle eine PR-Beschreibung mit Summary, Änderungsliste und Testplan.“ Heraus kommt eine strukturierte Übersicht, die Reviewer sofort verstehen. Statt 15 Minuten für eine gute PR-Beschreibung vergehen 30 Sekunden.
Wertvoller ist der Einsatz als Vor-Reviewer. Bevor ein Pull Request an einen Kollegen geht, kann Claude Code die Änderungen analysieren und auf typische Probleme prüfen: fehlende Fehlerbehandlung, inkonsistente Namensgebung, potenzielle Performance-Probleme, vergessene Tests. Ersetzen kann das den menschlichen Reviewer nicht. Aber es filtert offensichtliche Mängel heraus, sodass sich der Kollege auf Architektur und Geschäftslogik konzentrieren kann. Aus meiner Sicht verändert das die Rolle des Reviewers grundlegend: Statt Namenkonventionen und fehlende Null-Checks zu bemängeln, kann er sich endlich auf das konzentrieren, was wirklich zählt.
Auch die umgekehrte Richtung funktioniert. Hat ein Reviewer Kommentare hinterlassen, kann der Autor diese an Claude Code weiterleiten: „Hier sind die Review-Kommentare. Setze die vorgeschlagenen Änderungen um, sofern sie sinnvoll sind. Bei den Punkten 3 und 7 halte ich die aktuelle Lösung für besser.“ Claude Code arbeitet die Kommentare ab und erklärt, wo es anderer Meinung ist. Review-Ping-Pong, das normalerweise zwei bis drei Tage dauert, schrumpft auf Stunden. Genau das zählt.
Für CI/CD-Pipelines existiert seit Herbst 2025 eine offizielle GitHub-Action von Anthropic. Sie lässt Claude Code bei jedem Push einen automatischen Review durchführen und Kommentare direkt im Pull Request hinterlassen. Anthropics eigene Daten zum Code-Review-Feature zeigen: Bei großen Pull Requests mit über 400 Zeilen identifiziert das Tool im Schnitt 7,5 substanzielle Issues pro Review. Allerdings gilt auch hier: Automatische Kommentare brauchen Kuration. Claude Code kann übereifrig sein und harmlose Stilfragen als vermeintliche Bugs markieren, was Reviewer eher irritiert als unterstützt.
Welche Debugging-Patterns funktionieren wirklich?
Ein Stacktrace allein erzählt selten die ganze Geschichte. Fehlermeldungen zeigen, wo der Code abstürzt. Warum er dort abstürzt, ist eine andere Frage. Bei komplexen Fehlern, die nur unter bestimmten Bedingungen auftreten (Race Conditions, Speicherlecks, zeitabhängige Bugs), liegt die Ursache oft weit entfernt vom sichtbaren Symptom.
Claude Code bringt eine Fähigkeit mit, die beim Debugging unterschätzt wird: Es kann große Mengen Code lesen und Zusammenhänge erkennen, die ein Entwickler übersieht, weil er sich auf den offensichtlichen Verdacht konzentriert. Ein Prompt wie „Hier ist der Stacktrace. Analysiere die Fehlerursache. Untersuche auch indirekte Abhängigkeiten und mögliche Timing-Probleme.“ liefert oft Hypothesen, auf die der Entwickler allein nicht gekommen wäre.
Bewährt hat sich ein Debugging-Pattern aus drei Phasen. Phase eins: Reproduktion. Claude Code erstellt einen minimalen Testfall, der den Fehler zuverlässig auslöst. Klingt simpel, ist aber bei intermittierenden Bugs die schwierigste Aufgabe. Analysiert wird der fehlgeschlagene Code, die Auslösebedingungen werden identifiziert, ein isolierter Test entsteht.
Phase zwei: Eingrenzung. Mit dem reproduzierbaren Testfall grenzt Claude Code die Fehlerquelle schrittweise ein. Es kann Logging-Statements einfügen, Variablen inspizieren und Hypothesen systematisch testen. Dieser Prozess ähnelt einer binären Suche: Liegt der Fehler in der oberen oder unteren Hälfte der Aufrufkette? In welchem Modul tritt die Abweichung zuerst auf?
Phase drei: Fix und Absicherung. Ist die Ursache identifiziert, implementiert Claude Code den Fix und schreibt einen Regressionstest, der genau diesen Fehler abdeckt. Genauso wichtig wie der Fix selbst. Ohne Regressionstest besteht die Gefahr, dass derselbe Bug bei einem späteren Refactoring zurückkehrt.
Bei einem österreichischen FinTech trat ein Fehler auf, der nur am letzten Tag des Monats auftrat, und auch nur dann, wenn der Monat 31 Tage hatte. 14 Monate lebte der Bug in Produktion. Ein Entwickler verbrachte zwei Tage mit der Fehlersuche, bevor er Claude Code einsetzte. Elf Minuten brauchte Claude Code für die Ursache: Eine Date-Parsing-Funktion behandelte den 31. Tag eines Monats als ungültig, weil sie intern mit einem Zero-Indexed-Array arbeitete. Ein Mensch übersieht diese Zeile, weil sie syntaktisch korrekt aussieht. Claude Code prüft die Semantik. Solche Fehler sind das Paradebeispiel für AI-gestütztes Debugging.
Meine Erfahrung nach zahlreichen Debugging-Sessions: Claude Code ist am stärksten bei logischen Fehlern und Integrationsproblemen. Bei Performance-Problemen und Speicherlecks fehlen ihm die Laufzeitdaten, die nur ein Profiler liefern kann. Bremse statt Beschleuniger. Überraschend effektiv ist allerdings die Kombination aus Profiler-Output und Claude-Code-Analyse.
Was ändert sich bei Multi-Repo- und Monorepo-Projekten?
Viele DACH-Unternehmen betreiben keine einzelne Codebase, sondern fünf, zehn oder zwanzig verteilte Repositories. Backend in einem Repo, Frontend in einem anderen, Shared Libraries in einem dritten, Infrastructure-as-Code in einem vierten. Claude Code arbeitet standardmäßig innerhalb eines einzelnen Projektverzeichnisses. Für Multi-Repo-Szenarien braucht es zusätzliche Strategien.
Naheliegend: mehrere Claude-Code-Sessions parallel laufen lassen, eine pro Repository. Für unabhängige Änderungen funktioniert das. Sobald aber Backend-API und Frontend-Typen synchronisiert werden müssen, fehlt die Übersicht.
Eine bessere Variante nutzt das Workspace-Konzept. Der Entwickler erstellt ein übergeordnetes Verzeichnis, das alle relevanten Repos als Unterverzeichnisse enthält, und startet Claude Code dort. Claude Code sieht dann alle Repos auf einen Blick und kann Änderungen koordinieren. Der Nachteil: Bei großen Monorepos mit Hunderttausenden Dateien stößt das 200.000-Token-Kontextfenster (in der Beta bereits bis zu einer Million Token) an seine Grenzen. Die CLAUDE.md im Wurzelverzeichnis wird dann zum kritischen Steuerungsinstrument. Sie definiert, welche Verzeichnisse relevant sind und welche ignoriert werden sollen.
Für Monorepos mit Hunderten von Packages (wie sie bei großen DACH-Technologieunternehmen üblich sind) empfiehlt sich ein Subagenten-Ansatz. Im ersten Schritt analysiert der Hauptagent das übergeordnete Problem und delegiert Teilaufgaben an Subagenten, die jeweils nur ein Package bearbeiten. So sinkt der Kontextbedarf pro Agent und parallele Verarbeitung wird möglich. In der Praxis zeigt sich: Am schwierigsten bleibt die Koordination der Subagenten. Ohne klare Vorgaben im Hauptprompt produzieren sie inkompatible Änderungen.
Ein pragmatischer Tipp für Teams, die gerade erst anfangen: Nicht versuchen, alle Repos parallel mit Claude Code zu bearbeiten. Stattdessen ein Repo identifizieren, in dem die größte Zeitersparnis winkt, und dort Erfahrung sammeln. Learnings lassen sich dann auf weitere Repos übertragen. Dieser inkrementelle Ansatz vermeidet die Überforderung, die entsteht, wenn Teams zu früh zu viel automatisieren wollen.
Ausblick
Alle fünf Patterns zeigen, dass Claude Code seinen größten Nutzen nicht bei einfachen Aufgaben entfaltet. Autovervollständigung einer for-Schleife braucht kein agentic Tool. Refactoring über 47 Dateien, systematische Testgenerierung für ungetestete Module, das Verstehen einer Legacy-Codebase an einem Nachmittag statt in einer Woche: Dort liegt der Mehrwert.
Sichtbar wird bei jedem Pattern auch ein wiederkehrendes Muster. Am Ende hängt die Ergebnisqualität direkt von der Qualität der Anweisung ab. Wer „Schreib Tests“ eingibt, bekommt mittelmäßige Tests. Wer Edge Cases, Verhaltensspezifikationen und Grenzbedingungen vorgibt, bekommt brauchbare Tests. Claude Code verstärkt die vorhandene Kompetenz des Entwicklers, aber es ersetzt sie unter keinen Umständen.
Für DACH-Teams bleibt die Frage der Governance offen. Wenn Claude Code Pull Requests reviewt und Code committed, wer trägt die Verantwortung für das Ergebnis? Darauf haben die meisten Unternehmen noch keine klare Antwort. Teil 4 dieser Serie hat die rechtlichen Rahmenbedingungen erörtert. Doch die Realität sieht anders aus: Technisch ist mehr möglich, als organisatorische Prozesse abbilden. Wer Claude Code heute produktiv einsetzt, sollte nicht nur Prompts optimieren, sondern auch Zuständigkeiten klären.
Wer heute anfängt, sollte mit dem Debugging-Pattern starten. Es hat die niedrigste Einstiegshürde und liefert die schnellsten Ergebnisse.
Diese Serie hat Claude Code aus sechs Perspektiven betrachtet: Grundlagen und Architektur (Teil 1), produktive Workflows (Teil 2), fortgeschrittene Techniken (Teil 3), Kosten und Sicherheit (Teil 4) und nun die Praxispatterns für den Projektalltag. Wer tiefer einsteigen möchte, findet in Teil 0 eine kompakte Übersicht aller Kernerkenntnisse.
Ich bin überzeugt, dass agentic Coding nicht wieder verschwinden wird. Zu real sind die Produktivitätsgewinne bei komplexen Aufgaben, mit jeder neuen Version sinken die Einstiegshürden weiter. Was sich ändern wird, ist die Art, wie Teams diese Werkzeuge in ihre bestehenden Entwicklungsprozesse und Qualitätssicherungsabläufe einbetten. Noch experimentieren die frühen Adopter. Aber in zwei Jahren werden sich feste Standards herausgebildet haben, an denen sich die gesamte Branche orientiert. Wer heute anfängt, gestaltet diese Standards mit.
Quellen
- Anthropic: Estimating the Productivity Gains of AI on Developer Work, 2026 (anthropic.com/research)
- Anthropic: Claude Code Documentation, 2025–2026 (docs.anthropic.com)
- PractiTest: State of Testing Report 2026, Testabdeckung und Deployment-Risiken (practitest.com)
- LinearB: Engineering Metrics Benchmark Report 2025, Code Review Time (linearb.io)
- Anthropic: Claude Code Review: Automated Pull Request Reviews, März 2026 (claude.com/blog/code-review)
- GitHub: GitHub Actions for Claude Code, Dokumentation (github.com/anthropics)
- METR: Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity, 2025 (metr.org)
- Markets and Markets: AI Code Tools Market Report 2025–2030 (marketsandmarkets.com)
