Thought Leadership

Von Vibe Coding zu Agentic Engineering

Andreas Martens Mai 2026

Andrej Karpathy hat den Begriff „Vibe Coding" geprägt — und ihn zur Internet-Sensation gemacht. Er beschreibt den Modus, in dem die Mehrheit der Entwickler:innen heute mit KI arbeitet: vor Cursor oder Claude Code sitzen, mit dem Modell plaudern, Patches akzeptieren, die „sich gut anfühlen", auf der visuellen Oberfläche iterieren, Bugs heraussortieren wenn sie auftauchen. Prima für Personal Projects. Prima für Wochenend-Hacks. Prima für Prototypen. Skaliert nicht auf Produktion.

Der Punkt, den Karpathy nun macht — und der Teil des Framings, der für jede Engineering-Organisation zählt, die KI produktiv einsetzen will — ist der Kontrast. Es gibt einen zweiten Modus. Die Disziplin dahinter trägt den Namen „Agentic Engineering". Das ist nicht Vibe Coding hochskaliert. Das ist eine andere Form.

Vibe Coding vertraut dem Modell. Agentic Engineering misst es. Vibe Coding plaudert. Agentic Engineering spezifiziert. Vibe Coding lebt im Fünf-Minuten-Aufgaben-Horizont. Agentic Engineering zielt auf Stunden und Tage. Karpathy hat das selbst klar formuliert: er nutzt Vibe Coding für seine eigenen kleinen Tools — und wäre nie auf die Idee gekommen, so Tesla Autopilot zu schreiben.

Die Disziplin, die Agentic Engineering beschreibt, entsteht gerade jetzt. In den nächsten zwölf bis vierundzwanzig Monaten kristallisiert sie sich zu einem professionellen Skillset, das Engineering-Organisationen entweder erwerben oder von Wettbewerbern aus dem Markt iteriert werden, die es taten. Unten: sieben konkrete Engineering-Praktiken, die zusammen den Shift ausmachen.

Sieben Praktiken, eine Disziplin

Jede Praktik ist eine bewusste Bewegung weg von „ich tippe einen Prompt, das Modell antwortet, ich prüfe per Augenschein" hin zu „ich orchestriere autonome Agenten über lange Horizonte, mit Tooling, mit Verifikation, mit messbarem Output."

Context Engineering Statt Prompt Engineering

Der Hebel hat sich verschoben: was im Arbeitsgedächtnis des Agenten liegt, zählt mehr als wie es gefragt wird.

Karpathy hat öffentlich gesagt, dass „Prompt Engineering" als Disziplin zunehmend irrelevant wird. Der eigentliche Hebel liegt eine Schicht tiefer: welche Files, welche Historie, welche Spec, welches Tooling der Agent in dem Moment in seinem Arbeitsgedächtnis hat, in dem er handelt. Teams, die das gut kuratieren — was reingehört, was raus muss, was veraltet ist, was tragend ist — lösen das halbe Problem, bevor das Modell überhaupt läuft. Das ist der größte Skill-Shift, den Engineering-Teams machen müssen.

Verifikation als Pflicht-Loop Vibe Coding vertraut. Agentic Engineering misst.

Ohne Verifikations-Loop hast du keine Autonomie — du hast erweiterte Autocomplete.

Tests, Linters, Type-Checker, Eval-Suiten: das sind die Signale, an denen der Agent seine eigene Arbeit überprüft und bei Bedarf nachbessert. Ohne diesen Loop ist Autonomie eine Illusion — der Agent fühlt sich nur an, als würde er funktionieren, bis die Produktion den Bug fängt. Die Disziplin: Verifikation wird Aufgabe des Agenten, ausgeführt im Loop — nicht ein menschliches Review hinterher.

Spec-Driven Work Statt freier Konversation

Eine Spec lässt dich weggehen. Ein Chat nicht.

Statt „bau mal eine Login-Funktion" gibt es eine Spezifikation: Akzeptanzkriterien, erwartetes Schnittstellen-Verhalten, Edge-Cases benannt, regulatorische Constraints klar formuliert. Der Agent arbeitet gegen die Spec, nicht gegen das Bauchgefühl eines Entwicklers. Das macht Arbeit asynchron lauffähig — du kannst eine Aufgabe loslassen und zwanzig Minuten später schauen, ob sie erledigt ist, statt jeden Tastendruck zu co-piloten. Spec-driven Work macht aus KI einen Team-Kollegen statt einer Tipphilfe.

Lange Aufgaben-Horizonte Stunden, nicht Minuten

Wie lange kann das Modell kohärent und produktiv bleiben, ohne dass ein Mensch einen Turn macht?

Vibe Coding löst Fünf-Minuten-Tasks. Agentic Engineering zielt auf Stunden- und Tag-Tasks — multi-step, mit getrennter Planung und Ausführung, mit Fallback-Pfaden, mit Self-Correction an Gates. Karpathy hat den maximalen kohärenten Horizont als die zentrale offene Schwelle der LLM-Forschung gerade jetzt bezeichnet. Die Teams, die herausfinden, wie Tasks gesetzt werden, die lange Horizonte überstehen — statt bei der 20-Minuten-Marke zu degradieren — bekommen den Produktivitäts-Multiplikator zuerst.

Code als agenten-freundliche Infrastruktur Was früher „guter Code für Menschen" hieß, ist jetzt Voraussetzung für Agenten

Agenten sind ehrlicher als Menschen darin, was sie unverständlich finden.

Eine Codebase, in der ein Agent skalierbar arbeiten kann, hat klare Struktur, gute Docstrings, Type-Hints, Tests, vorhersehbare Namens-Konventionen. Vieles, was als „guter Code für menschliche Lesbarkeit" galt, ist jetzt harte Voraussetzung für Agenten-Produktivität. Der Twist: Agenten sind direkter als menschliche Reviewer darin, was sie unverständlich finden. Eine Funktion ohne Docstring und mit vagem Namen wird falsch benutzt — hörbar in den Audit-Logs. Engineering-Teams, die Tech-Debt-getarnt-als-Tribal-Knowledge mit sich herumtragen, spüren das schnell kompoundieren.

Multi-Agent-Orchestrierung Spezialisten, kein Monster-Modell

Ein Planner, ein Coder, ein Reviewer, ein Test-Agent — jeder mit eigenem Kontext, eigenen Tools, eigenem Job.

Das ist die Architektur in Cursor, Devin, Claude Code, Cline: orchestrierte Spezialisten statt eines monolithischen Modells, das „alles kann". Karpathy ist hier vorsichtig — er hält Multi-Agent für einige Use-Cases für überhyped — stimmt aber zu, dass das Muster für Produktions-Workflows mit klar trennbaren Subtasks funktioniert. Jede Rolle hat ihr eigenes Context-Window, ihr eigenes Toolset, ihre eigenen Erfolgskriterien. Die Orchestrierungs-Logik ist die Stelle, wo das meiste Engineering versteckt liegt.

Eval-Driven Development Messe den Agenten so, wie du Code messen würdest

Eval-Suiten werden zur Engineering-Praxis — wie früher Unit-Tests, nur für den Agenten.

Du vertraust dem Agenten nicht über die Zeit — du misst ihn. Welche Tasks löst er zuverlässig, wo bricht er ein, wie ändert sich das mit jedem Modell-Upgrade? Eval-Suiten werden Standard-Engineering-Infrastruktur: ein Regressions-Set, das der Agent bestehen muss, bevor ihm neue Verantwortung anvertraut wird. Ohne das kannst du nicht erkennen, ob ein Upgrade die Dinge besser, schlechter oder einfach anders gemacht hat — du rätst.

Der Skill-Shift, den das impliziert

Die sieben Praktiken oben sind keine Nice-to-haves. Sie sind Komponenten einer kohärenten Disziplin. Engineering-Teams, die versuchen Vibe Coding hochzuskalieren — indem sie mehr Entwickler einstellen, die „gut im Prompten" sind — laufen schnell gegen eine Decke. Die Decke ist strukturell, nicht aufwands-gebunden.

Der Skill, der zählt, ist nicht mehr das Tippen eines cleveren Prompts. Es ist das Designen des umgebenden Systems: der Kontext, in dem der Agent operiert, die Verifikation, die der Agent durchläuft, die Spec, an die die Arbeit verankert ist, die Eval-Suite, die Regressionen abfängt. Das ist die eigentliche Engineering-Arbeit.

Die Disziplin ist nicht im Prompten. Sie ist im Setup drumherum.

Das erklärt das sonst rätselhafte Muster, dass Organisationen beeindruckende KI-unterstützte Demos zeigen und dann am Produktions-Gate stehenbleiben. Das Demo läuft im Vibe-Coding-Modus und funktioniert auf dem Happy-Path. Produktion braucht Agentic Engineering — und das Team hat das umgebende System nie gebaut.

* * *

Warum jetzt

Die Begrifflichkeit ist frisch, aber der zugrundeliegende Shift war unvermeidlich. Drei Kräfte treiben ihn.

Modelle wurden gut genug, dass der Mensch im Loop zum Engpass wurde. Wenn das Modell schneller schreibt als ein Mensch reviewen kann, ist der limitierende Faktor nicht mehr das Modell. Es ist die Review-und-Korrektur-Oberfläche. Vibe Coding löst das nicht — es macht den Menschen zum langsamen Teil. Agentic Engineering bringt Verifikation in den Loop.

Tooling ist gereift, um lange Autonomie zu tragen. Vor einem Jahr hätte „lass den Agenten eine Stunde ohne Aufsicht arbeiten" bedeutet, das Context-Window alle zwanzig Minuten umzuschreiben. Die Werkzeuge — Orchestrierungs-Frameworks, Eval-Bibliotheken, strukturierte Tool-Use-APIs — haben aufgeholt. Lange Horizonte sind jetzt technisch machbar. Die Engineering-Disziplin, sie gut zu nutzen, ist die Lücke.

Die Ökonomie ist unerbittlich. Teams, die Agentic Engineering herausfinden, bekommen einen Multiplikator, der über jede Engineering-Stunde kompoundiert. Teams, die im Vibe-Coding-Modus bleiben, sehen ihre Senior-Engineers den Tag mit Modell-Output-Korrekturlesen verbringen. Das zweite Team verliert den Talent-Krieg und den Produkt-Krieg auf derselben Achse.

* * *

Was das für Engineering-Leadership heißt

Für jeden, der eine Software-Delivery-Organisation führt, hört die Frage auf, „sollen wir KI einsetzen" zu sein, und wird zu „sind wir aufgesetzt, sie als Agentic Engineering oder nur als Vibe Coding einzusetzen?". Die Antwort ist meist sichtbar an den Praktiken oben. Ein Team mit Eval-Suiten für seine Agenten, mit spec-driven Workflow, mit Context-Kuration als First-Class-Disziplin, mit Orchestrierungs-Mustern in Produktion — dieses Team hat die Schwelle überschritten. Ein Team, bei dem KI-Nutzung wie „Entwickler chatten mit Cursor" aussieht, hat sie nicht.

Die Investition liegt in den Praktiken, nicht in den Lizenzen. Der Skill-Shift liegt in Kontext, Verifikation, Spezifikation, Eval — nicht in besseren Prompts. Die nächsten zwölf bis vierundzwanzig Monate sind das Fenster, in dem eine kleine Zahl von Organisationen den Muskel aufbaut und der Rest — schmerzhaft — entdeckt, dass er ihn braucht.

Vibe Coding ist der Modus, in dem die meisten Entwickler heute sind. Agentic Engineering ist der Modus, in dem produktive AI-augmentierte Teams operieren werden müssen, wenn sie das Demo-Stadium verlassen wollen.

Das ist das Framing, das ernst zu nehmen ist.

In der Praxis

Der Shift von Vibe Coding zu Agentic Engineering in einem 10-Tage-Festpreis-Engagement:

Angebot · 10-Tage-Bootstrap Agentic Engineering Bootstrap — Praktiken aufsetzen und ersten agenten-augmentierten Workflow ausliefern Angebot lesen

Wo steht Ihr Team zwischen Vibe Coding und Agentic Engineering?

Wir helfen Engineering-Organisationen, die sieben Praktiken aufzusetzen — Kontext, Verifikation, Spec, Horizonte, Infrastruktur, Orchestrierung, Eval.

Kontakt aufnehmen