Warum überarbeitet KI beim Selbstcheck so oft zu viel?

Weil Formulierungen wie kritisch prüfen nahelegen, dass Fehler existieren. Eine Liste mit Verbesserungen wirkt dann hilfreicher als ein kalibriertes PASS.

Sollten Teams KI-Review vermeiden?

Nein. Sie sollten offene Kritik durch Review nach Rubrik ersetzen: mit Evidenzpflicht, Severity-Schwellen und einem gültigen PASS_NO_CHANGE.

Hör auf, KI zum kritischen Selbstcheck zu bitten

Q: Was ist der einfachste Ersatzprompt?

Bewerte das gegen diese Rubrik. PASS_NO_CHANGE ist gültig. Schlage nur evidenzbasierte, materielle Fixes vor — keine Nice-to-have-Verbesserungen.

Warum KI-Reviewer fast immer etwas finden — und der bessere Ersatz: Review nach Rubrik, bei dem PASS_NO_CHANGE erlaubt ist.

Die Kurzfassung

„Prüf das kritisch selbst“ klingt verantwortungsvoll.

In der Praxis baut man damit oft einen kleinen Reward-Hack: Die KI wirkt wie ein nützlicher Reviewer, indem sie etwas findet.

Das heißt nicht, dass Self-Review nutzlos ist. Self-Refine, Reflexion, CRITIC, Constitutional AI und Eval-Tools zeigen alle, dass Feedback-Loops Outputs verbessern können. Das Problem ist enger: offene Kritik hat keinen Stop-Zustand.

Der bessere Prompt ist:

Bewerte das gegen diese Rubrik.
PASS_NO_CHANGE ist gültig.
Schlage nur evidenzbasierte, materielle Fixes vor — keine Nice-to-haves.

gültiger PASS-Zustand

Style-Fixes ohne Evidenz

maximale materielle Findings

Warum „sei kritisch“ kippt

Die Formulierung trägt eine versteckte Annahme: Es gibt Fehler zu finden.

Ein Modell unter Helpfulness-Druck hat dann einen einfachen Weg, die Aufgabe zu erfüllen. Es listet plausible Verbesserungen auf. Mehr Details fühlen sich nützlicher an. Ein Rewrite fühlt sich wie Fortschritt an. Aber nichts davon beweist, dass das Artefakt unter der Qualitätslatte lag.

Offene Kritik vs. kalibriertes Review

Schwacher Review-Prompt

„Finde Probleme und verbessere das.“
Kein expliziter PASS-Zustand.
Jede Änderung wirkt kostenlos.
Kritik kann Geschmack sein.

Besseres Review-Gate

„Score jedes Kriterium gegen die Rubrik.“
PASS_NO_CHANGE ist eine gewollte Antwort.
Nur S0/S1-Findings rechtfertigen Churn.
Jedes Finding braucht konkrete Evidenz.

Das ist besonders gefährlich bei Agent-Systemen, Skills, Buildprints und Coding-Agent-Harnesses. Kleine „Verbesserungen“ können Scope verschieben, Rauschen erzeugen oder künftigen Agenten die falsche Invariante beibringen.

Review ist nicht Verbesserung. Review ist Entscheidung gegen eine Latte.

Der sichere Loop

Kalibriertes KI-Review

No-change muss ein echtes Ergebnis sein

01

Rubrik
02

Score
03

Evidenz
04

Severity
05

Minimaler Patch
06

Verifikation

Nutze vier Scores:

0 = fehlt / unsicher / falsch
1 = materiell schwach
2 = akzeptabel
3 = exzellent

Patch-Regel:

0 oder 1 → Patch nötig
2 oder 3 → keine Änderung

Dann Severity dazu:

S0 Blocker — nicht sicher oder korrekt nutzbar.
S1 Material — wahrscheinlich echter Fehler in der Praxis.
S2 Minor — optionale Verbesserung.
S3 Taste — ignorieren, außer explizit gefragt.

Default: Nur S0/S1 dürfen Änderungen auslösen.

Was der Reviewer beweisen muss

Welches Kriterium mit Score 0 oder 1 scheitert.
Konkrete Evidenz: Zitat, Datei, Zeile, Verhalten oder Testausgabe.
Impact, wenn nichts geändert wird — nicht nur schönere Formulierung.
Der kleinste Fix, der das Kriterium wieder erfüllt.

Mini-Prompt zum Klauen

Du bist ein kalibrierter Reviewer, kein Improver.

Bewerte das Artefakt gegen die Rubrik. PASS_NO_CHANGE ist korrekt und erwünscht, wenn kein materielles Kriterium scheitert.

Regeln:
- Empfiehl Änderungen nur für Kriterien mit Score 0 oder 1.
- Empfiehl keine Änderungen für Scores 2 oder 3.
- Keine Style-, Geschmacks- oder Nice-to-have-Vorschläge.
- Maximal 3 Findings.
- Jedes Finding braucht konkrete Evidenz.

Return:
Status: PASS_NO_CHANGE | PATCH_REQUIRED | QUESTIONS_REQUIRED
Scores: Kriterium → Score + Einzeiler
Findings: Kriterium, Evidenz, Severity, Impact, Minimal-Fix, Confidence

Nutzen / vermeiden

Nutzen

✓ PASS_NO_CHANGE explizit erlauben
✓ gegen eine benannte Rubrik reviewen
✓ Evidenz pro Finding verlangen
✓ Reviewer-Modus und Editor-Modus trennen

Vermeiden

× generisches „denk kritisch“ verlangen
× lange Verbesserungslisten belohnen
× S2/S3-Geschmack automatisch patchen
× das Modell nach dem Review frei rewriten lassen

Wo das am meisten zählt

Für AI-native Arbeit ist das kein Wording-Trick. Es ist ein Betriebsprinzip.

Wenn du einen Agenten bittest, „den Skill selbst zu verbessern“, optimiert er leicht auf sichtbare Änderung. Wenn du ihn gegen Aktivierungsklarheit, Scope-Erhalt, Evidenzvertrag, Tool-Disziplin, Safety Boundary, Output Contract, Verification Gate, Stop Rule und Pass Option urteilen lässt, hat er ein echtes Ziel.

Der beste Reviewer ist nicht der, der immer etwas findet.

Der beste Reviewer ist der, der weiß, wann materiell nichts kaputt ist.