Agent Buildprint ist mein aktuelles Hauptprojekt: ausführbare Verträge für Coding Agents — mit Phase-Flow, Evidence Ledger, Review-Schleifen und Replay-Gates statt nur Prompt + Spec.
ACTIVE BUILDphase-flow replay + evidence honesty
Agent Buildprint
Agenten starten nicht mehr mit einem vagen Auftrag. Sie bootstrappen ein selected-buildprint Paket, lesen die Phase-Flow-Verfassung, schreiben schema-valide Laufzeitbelege und dürfen Blocker nicht als Erfolg verkaufen.
$ agb start
→ phase before code
→ evidence before trust
→ replay before done
Ein selbstgeführter Lernpfad für Entwickler:innen, die AI-Features nicht nur demoen, sondern betreiben wollen — mit Kontextbudgets, Task Contracts, Dekomposition, Evals und Fallbacks.
01
Tokens & Attention
Kontextfenster, Positionseffekte und lost-in-the-middle als echte Architekturgrenzen.
02
Context Engineering
Task Contracts, Schemas und Quellenregeln statt längerer Prompts.
03
Agentic Delivery
Evals, Traces, Tool-Gates und Incident Playbooks für betreibbare AI-Features.
Besseres KI-Coding entsteht nicht primär durch bessere Prompts, sondern durch den Harness um das Modell: explizite Contracts, getrennte Builder- und Reviewer-Rollen, Belege und eine Schleife, die Fehler in bessere Spezifikationen zurückführt.
KI-generierte Interfaces sehen oft fertig aus, bevor sie sich korrekt verhalten. Eine GUI-Playtester-Loop schickt einen separaten Browser-Agenten in die App, protokolliert Interaktionen, speichert Screenshots und Logs, macht aus kaputten Flows reproduzierbare Bug Reports und rerunnt denselben Test nach dem Fix.
Lange Agenten-Chats verrotten. Besser ist es, Entscheidungen in kleine Spec-Dateien zu verschieben, zwischen den Ebenen bewusst den Kontext zu resetten und jede Coding-Agent-Session nur das lesen zu lassen, was sie wirklich braucht.
Wenn ein Agent klickt, sendet, kauft oder Daten extrahiert, darf die entscheidende Wahrheit nicht nur aus Modell-Prosa kommen. Baue vor riskanten Tool Calls ein kleines Evidenz-Gate: Predicate, Belegtyp, Quelle, Entscheidung.
Offene Anweisungen wie „prüf das kritisch“ belohnen das Modell ungewollt dafür, Kritik zu produzieren. Die Lösung ist nicht weniger Review, sondern kalibriertes Review: klare Kriterien, PASS_NO_CHANGE, Evidenz pro Finding, Severity-Schwellen und ein kleines Änderungsbudget.
Ein Coding Agent wird nicht durch einen magischen Prompt zuverlässig. Er braucht einen Harness: AGENTS.md, Skills, Tool-Permissions, Hooks und Evals, die merken, wenn sich sein Verhalten verschiebt.
Der nützliche Move ist nicht ein Mega-Assistent für alle Kunden. Gib jedem Kundenprojekt einen kleinen, isolierten Agenten mit eigener Erinnerung, Aufgabenliste, Preview-URL-Gewohnheit und langweiligem Daily Standup.
Nach Context Engineering kommt Decomposition: Entwickler sollten nicht alles in einen Prompt stopfen, sondern Aufgaben in direkte Prompts, Subtasks, Pipelines, Agent-Loops oder Skills zerlegen.
Die nächste Entwicklerfähigkeit ist nicht der cleverste Prompt. Es ist das Betriebssystem um LLMs herum: Datenqualität, Model-Versioning, Evals, Guardrails, Incident Response, Review-UX und Repo-Anweisungen, denen Agents wirklich folgen können.
Voice ist nicht gut für alles. Aber für kleine Agentenjobs ist es brutal praktisch: unterwegs eine Aufgabe diktieren, lokal transkribieren, vom bestehenden Agenten ausführen lassen und nur eine kurze Antwort zurückbekommen.
2026 geht es nicht mehr um den einen magischen Prompt. Der bessere Ansatz: Kontext wählen, Tools und Schemas definieren, Agent-Regeln setzen und mit Evals prüfen.
Hermes wird interessant, wenn ein Agent nicht nur liefert, sondern die eigene Arbeit reviewed: ausführen, messen, kritisieren, Skill umbauen, nochmal laufen lassen. Der Nutzen entsteht vor allem bei wiederholbaren Workflows.
AI-first Architektur heißt nicht: Modell entscheidet. Es heißt: KI erzeugt Optionen, findet Risiken, verdichtet Kontext — das Team entscheidet und dokumentiert nachvollziehbar.