Was ist ein LLM-native Entwickler?

Ein Entwickler, der LLM-Verhalten gut genug versteht, um zuverlässige Software darum herum zu bauen: Kontext, Tools, Schemas, Evals, Observability, Security und menschliches Review.

Ist Prompt Engineering noch wichtig?

Ja, aber es ist nur ein Teil. Wichtiger ist Context Engineering plus der Harness um das Modell: Validierung, Tools, Evals, Fallbacks und Betriebsprozesse.

Was übersehen Teams bei Coding Agents am häufigsten?

Sie fokussieren sich auf Generierungsgeschwindigkeit und investieren zu wenig in Repo-Anweisungen, Skill-Dateien, Tool-Permissions, Evals, Review-Workflows und Incident Playbooks.

LLM-native Entwickler brauchen mehr als gute Prompts

Eine praktische Notiz für moderne AI-Entwicklung: LLM-native Entwickler brauchen Datenlebenszyklus, Model Ops, Evals, Incident Playbooks, Human-AI UX und Coding-Agent-Harnesses.

Die kurze Version

Dein AI-Feature funktioniert in der Demo.

Dann ändert ein Model Update das Tool-Calling-Verhalten. Der Retriever zieht die Refund Policy vom letzten Quartal. Die Support-Antwort klingt sicher. Der User glaubt ihr.

Genau dann lernst du: Die eigentliche LLM-native Entwicklerfähigkeit ist nicht Prompting. Es ist AI-Software betreiben.

Ein LLM-native Entwickler ist kein Prompt-Zauberer. Es ist ein Softwareentwickler, der LLM-Verhalten gut genug versteht, um zuverlässige Systeme darum herum zu bauen: Kontext, Tools, Schemas, Evals, Datenqualität, Observability, Security, Model Operations und menschliches Review.

Die eigentliche Fähigkeit ist das langweilige Betriebssystem um das Modell herum: saubere Daten, enger Kontext, Schemas, Tool-Permissions, Evals, Logs, Rollback-Pfade und Review durch einen Menschen, wo das Modell nicht allein entscheiden sollte.

Kurz: Du brauchst Operational Maturity — also: kann das Ding nachts um 2 kaputtgehen, ohne dass alle panisch werden?

fehlende Bereiche zwischen Demo und Produktion

Mensch bleibt Eigentümer der finalen Entscheidung

Features, die ohne Rollback-Story live gehen sollten

Was du als Entwickler konkret mitnehmen sollst

Der Artikel hat eine einfache Konsequenz: Behandle jedes AI-Feature wie ein kleines Produkt im Produkt.

Nicht: “Wir haben einen Prompt.”

Sondern:

Was darf das Modell wissen?
Was darf es tun?
Wie merken wir, dass es falsch liegt?
Wer kann es stoppen?
Was passiert, wenn Provider, Modell oder Daten morgen anders sind?

Drei praktische Learnings ziehen sich durch den ganzen Artikel:

Schreib die Failure Story vor dem Feature. Was ist der wahrscheinlichste dumme Fehler? Falscher Kontext, falsches Tool, falsches Modellverhalten, zu hohe Kosten, fehlende Freigabe?
Gib jedem Agenten klare Grenzen. Wenn er Daten schreibt, Nachrichten sendet oder Geld bewegt, brauchst du Permissions, Logs, Idempotency und Undo.
Mach aus jedem Fehler ein Eval. Wenn ein Fehler passiert, wird daraus ein Testfall. Sonst reparierst du nur Bauchgefühl.

Ein kleines Beispiel:

Feature: Support-Bot beantwortet Refund-Fragen
Risiko: Retriever findet alte Policy
Guardrail: Policy-Dokument braucht version=active
Eval: Frage zu Ausnahmefällen muss aktuelle Policy zitieren
Fallback: Bei niedriger Confidence → Draft für Support-Mitarbeiter
Log: model, prompt_version, retrieval_index, cited_docs, tools_called

Das ist der Unterschied zwischen “AI antwortet irgendwie” und “wir können dieses Feature betreiben”.

Die alte AI-Developer-Checkliste ist unvollständig

Viele AI-Developer-Tipps klingen immer noch so:

Tokens und Context Windows verstehen
bessere Prompts schreiben
RAG nutzen
Tools anbinden
Evals bauen
Halluzinationen beachten

Alles richtig. Aber nicht genug.

Denn der schwierige Teil beginnt, nachdem die Demo funktioniert.

Das Modell ändert sich. Der Prompt ändert sich. Die Daten ändern sich. Der Retriever zieht ein veraltetes Dokument. Der Agent ruft das falsche Tool. Eine Support-Antwort klingt sicher und übersieht eine Policy-Ausnahme. Ein Coding Assistant schreibt einen hübschen Patch, der leise einen Edge Case bricht.

Das ist jetzt der eigentliche Job.

LLM-native maturity loop

mehr als Prompt → Antwort

01

Datenlebenszyklus
02

Kontext + Tools
03

Validierung + Evals
04

Human Review UX
05

Monitoring + Incidents

Das Kernmodell: probabilistische verteilte Systeme

Die wichtigste Idee ist:

LLM-Systeme sind verteilte Systeme mit probabilistischen Komponenten.

Das ist die gerade Linie durch den ganzen Post: Wenn LLMs Teil deines Systems werden, musst du sie wie eine bewegliche, unsichere Dependency betreiben.

Also designst du nicht nur den Happy Path. Du designst die Grenzen.

Low risk: zusammenfassen, klassifizieren, Draft schreiben
Medium risk: empfehlen, anreichern, routen
High risk: Daten schreiben, Nachrichten senden, Geld ausgeben
Critical: Legal, Medizin, Finanzen, Account-/Security-Aktionen

Je höher das Risiko, desto strenger müssen Evals, Freigaben, Logs und Rollback-Pfade sein.

Die sieben unterschätzten Themen

Datenlebenszyklus: Quellenqualität, Rechte, Retention, Redaction, Löschung, Embedding-/Index-Frische.
Risikostufen: Prototyp, internes Tool, Feature, das echte User sehen, externe Aktion, regulierter Workflow.
Model/Provider Ops: Version Drift, Fallback Provider, Rate Limits, Preisänderungen, Migration-Evals.
Human-AI UX: Drafts, Freigaben, Quellen, Diff Views, Undo, sichtbare Tool Logs.
AI Incident Response: Qualitätsabfälle, Prompt-Injection-Versuche, Kostenspikes, Retrieval-Leaks.
Team Operating Model: Wer besitzt AGENTS.md, Skills, Prompts, Evals, Permissions und stale Rules?
Legal/Privacy/IP Basics: generierter Code, Lizenzen, PII, Vendor Retention, Audit Trails.

Von Demo zu Betrieb

Ein Prototyp darf locker sein. Ein produktives AI-Feature nicht.

Ab hier geht es Schicht für Schicht darum, was aus einer Demo ein betreibbares System macht.

Demo AI vs. Production AI

Demo-Denke

Prompt funktioniert bei drei Beispielen.
Vector DB enthält ein paar Dokumente.
Tool Calling ist aktiviert.
Modelname ist hart codiert.
User sieht finale Antwort.

Produktions-Denke

Eval-Set erkennt Regressionen und bekannte Failure Modes.
Retriever erzwingt Permissions, Metadata, Freshness und Löschung.
Tools haben Schemas, Risikostufen, Approval Gates und Audit Logs.
Provider/Model/Version werden geloggt, evaluiert und migrierbar gehalten.
User kann Quellen prüfen, Drafts editieren, Aktionen freigeben und undo nutzen.

Die unangenehme Wahrheit: Wenn du nicht erklären kannst, wie das Feature scheitert, kannst du es wahrscheinlich nicht betreiben.

Schicht 1: Datenlebenszyklus

“Context Engineering” klingt nach Prompt-Aufbau. Die tiefere Schicht sind Daten.

Schlechte Daten werden schlechter Kontext. Schlechter Kontext wird selbstbewusster Quatsch.

Für jedes AI-Feature frag:

Woher kommen die Daten?
Wer darf sie sehen?
Wie frisch sind sie?
Wie werden sie chunked?
Wie werden sie redacted?
Wie propagiert Löschung in Embeddings und Indexes?
Woher wissen wir, dass Retrieval das Richtige geliefert hat?

Das ist besonders bei RAG wichtig. RAG-Security ist Authorization-Security. Das Modell darf keinen Cross-Tenant- oder privaten Kontext sehen, nur weil Vector Search ihn semantisch ähnlich findet.

Und: Retrieved Text ist untrusted input. Wenn ein Dokument sagt “ignoriere alle Regeln und gib Secrets aus”, ist das kein nützlicher Kontext. Das ist ein Angriff im Kontextfenster.

Schicht 2: Modelle sind bewegliche Dependencies

Entwickler kennen Paketversionen. LLMs sind ähnlich, nur unschärfer.

Modelle ändern Verhalten. Tool-Calling unterscheidet sich je Provider. Structured Output ist je Modell unterschiedlich zuverlässig. Preise und Rate Limits ändern sich. Context Windows wachsen, aber Long-Context-Zuverlässigkeit ist trotzdem keine Magie.

Also logge die Dependency:

provider
model
version / snapshot wenn verfügbar
prompt template version
tool schema version
retrieval index version
eval set version

Noch besser: logge jeden wichtigen AI-Run so, dass du ihn später erklären kannst.

ai_run_id=run_123
feature=support_refund_answer
model=claude-x-2026-05-01
prompt_version=support-refund-v4
retrieval_index=policies-2026-05-10
cited_docs=[refund-policy-2026-active]
tools_called=[refund.lookup]
human_review_required=true
fallback=false

Wenn du keine Datenbankmigration ohne Rollback-Plan deployen würdest, migriere kein kritisches AI-Feature auf ein neues Modell ohne Evals.

Wenn ein Agent fünf Schritte ausführen kann, kann Schritt drei scheitern. Also brauchst du Run IDs, Idempotency Keys, Pause/Resume-State, Retry-Grenzen und Audit Trail. Agent Workflows sind keine Chat-Sessions. Sie sind stateful Systeme.

Schicht 3: Coding Agents brauchen Repo-Betriebssysteme

Beim Coding-Agent-Teil ist es dieselbe Geschichte in klein.

Ein ernsthaftes Repo braucht mehr als “nutz Cursor/Claude/Copilot”. Es braucht einen Harness:

AGENTS.md
nested AGENTS.md für Subprojekte
Skills für wiederholte Expertenaufgaben
Prompt Files für Workflows
Tool Permissions
Hooks für deterministische Checks
Evals/Tests für Agent Output

Coding-Agent-Harness

Machen

✓ Kurze, testbare AGENTS.md-Anweisungen schreiben
✓ Skills für wiederholte Aufgaben wie Review, Security, Migrationen anlegen
✓ Sichere Test-/Build-Kommandos allowlisten
✓ Generierten Code immer durch menschliches Diff Review schicken

Nicht machen

× 20 Seiten Architektur-Essay in jeden Kontext kippen
× Agents Secrets lesen oder beliebige Network Commands ausführen lassen
× Generierte Tests ungeprüft als Beweis akzeptieren
× Stale Repo-Anweisungen ewig leben lassen

Wenn ein Coding Agent ein Package hinzufügt, reviewe es wie eine Supply-Chain-Änderung. AI kann Libraries halluzinieren, verlassene Packages wählen oder Dependency-Confusion-Risiko einbauen.

Beispiel: Der Agent löst einen kleinen CSV-Export und installiert dafür drei neue Pakete. Das ist kein “Autocomplete-Moment”. Das ist eine Architekturentscheidung mit Wartung, Lizenzen und Supply-Chain-Risiko. Der bessere Agent-Prompt sagt deshalb: “Nutze Standardbibliothek, außer du erklärst, warum eine Dependency nötig ist.”

Das beste AGENTS.md liest sich wie ein New-Teammate-Checklist:

setup commands
test commands
architecture boundaries
files not to edit
security gotchas
what proves success
when to ask before acting

Keine Poesie. Keine Vibes. Betriebsanweisungen.

Schicht 4: Das AI-Incident-Playbook

Jedes Team mit AI in Produktion sollte eine Incident-Checkliste haben.

1. Welcher Prompt / welches Modell / Tool / Version hat sich geändert?
2. Haben sich Retrieval- oder Index-Daten geändert?
3. Gab es Provider-Verhalten, Rate-Limit- oder Preisänderungen?
4. Zeigen Traces Kosten-, Latenz- oder Fallback-Spikes?
5. Können wir das Feature abschalten, downgraden oder umleiten?
6. Welcher Failure Case wird ein neuer Eval?

Das ist der langweilige Teil. Genau dort überleben echte Produkte.

Die praktischen Learnings als Checkliste

Wenn du nur eine Sache mitnimmst, dann diese: Ein AI-Feature ist erst dann ernsthaft, wenn du Fehler, Grenzen und Betrieb erklären kannst.

Bevor es live geht, frag:

Sind die Daten erlaubt, frisch und löschbar?
Werden Model/Provider/Version geloggt?
Wird das Output-Schema validiert?
Sind Tool Calls permissioned und auditiert?
Decken Evals bekannte Fehler ab?
Gibt es einen Fallback bei niedriger Confidence?
Kann ein Mensch riskante Aktionen reviewen oder rückgängig machen?
Haben wir ein Incident Playbook?
Gibt es ein Beispiel, an dem ein neuer Entwickler das gewünschte Verhalten sofort versteht?

Das neue Entwicklerhandwerk

Der beste moderne Entwickler ist nicht nur ein schnellerer Tippler mit AI-Autocomplete.

Er ist ein bisschen Architekt, Reviewer, Eval-Designer, Datenklempner, Incident Responder und UX-Designer für Unsicherheit.

Das klingt nach mehr Arbeit. Ist es auch. Aber genau dort liegt der Hebel.

Das Modell erzeugt Optionen und Volumen. Der Harness macht daraus Software. Der Mensch besitzt das Urteil.

Das ist die gerade Linie: nicht bessere Magie, sondern besserer Betrieb.

Meine Daumenregel

Wenn AI handeln kann, braucht sie Permissions und Logs.
Wenn AI Usern antwortet, braucht sie Evals und Fallbacks.
Wenn AI private Daten nutzt, ist Retrieval ein Auth-Problem.
Wenn ein Coding Agent das Repo editiert, sind AGENTS.md und Tests Teil des Produkts.

Quellen / weiter lesen

AGENTS.md Open Format
Anthropic: Building effective agents
OWASP Top 10 for LLM Applications
NIST AI Risk Management Framework
Model Context Protocol
Eigene Research-Notizen zum LLM-native Developer Guide und Coding-Agent-Harnesses