Wenn Ihre KI schludert: fünf Techniken, mit denen Sie mehr aus jeder Antwort herausholen

Eine KI liefert selten von sich aus das Beste, was in ihr steckt. Selbst eine durchdachte Antwort kann roh sein, ein überzeugend klingender Plan brüchig. In diesem Beitrag gehe ich fünf Techniken durch, mit denen Sie Antworten auf Arbeitsqualität bringen, versteckte Schwächen in Ihren Ideen finden und nicht bei der ersten Variante stehen bleiben, die gut aussieht. Zum Schluss geht es darum, wie sich diese Techniken zu Ketten verbinden lassen.

Self-Refine: die KI redigiert sich selbst

Der einfachste Griff, und trotzdem nutzen ihn viele nicht. Der Grund liegt in einer Erwartung. Wir behandeln eine KI wie ein Programm, das sofort ein fertiges Ergebnis ausgibt. Sind Fehler drin, gilt das Programm als unfertig. Sieht es gut aus, scheint mehr nicht drin zu sein.

Eine KI ist aber kein Programm, sondern ein nicht-deterministisches System. Stellen Sie ihr dieselbe Frage dreimal, und jede Antwort fällt etwas anders aus. Hinzu kommt, dass sich ein Modell stark auf die gestellte Aufgabe konzentriert. Soll es eine Antwort liefern, schreibt es mit aller Kraft an dieser Antwort. Bitten Sie es dagegen, sich selbst zu prüfen und zu verbessern, kümmert es sich genau darum.

Vor einem Jahr habe ich ernste Aufgaben grundsätzlich nicht ohne Selbstprüfung an eine KI gegeben. Inzwischen sind die Modelle verlässlicher, und in Agentensystemen wie Claude Code läuft die Selbstprüfung von allein. Trotzdem bleibt Self-Refine nützlich. Die KI nimmt ihre Antwort wie ein Redakteur auseinander, legt die Logik offen und zeigt die tragenden Teile.

Ein Beispiel-Prompt:

Lies deine Antwort noch einmal. Bewerte sie nach drei Kriterien: 1) Richtigkeit der Fakten, 2) Vollständigkeit, also ob etwas Wichtiges fehlt, 3) Klarheit, also ob auch jemand ohne Vorwissen sie versteht. Schlage Änderungen vor, die in den Text einfließen sollten.

Viele lassen das Modell die Antwort gleich neu schreiben. Ich sehe mir lieber die Liste der Änderungen an und entscheide selbst, welche ich übernehme. Das dauert länger, dafür verstehe ich die Logik der Antwort besser.

Der Prompt oben ist ein Ausgangspunkt. Die genaue Form hängt vom Modell und von der Aufgabe ab. Auf aktuellen Spitzenmodellen genügt mir oft ein knappes „Doublecheck der letzten Antwort”, und das reicht, um grobe Fehler zu fangen. Brauche ich eine tiefere Prüfung, schreibe ich einen ausführlichen Prompt mit wechselnden Kriterien. Sprachmodelle sind auf Text trainiert und tun sich mit der realen Welt schwer. Bei fiktionalen Texten ergänze ich deshalb: „Prüfe die Logik der Hauptereignisse und den korrekten zeitlichen Ablauf.”

Chain-of-Verification: der vollständige Prüfzyklus

Faktenprüfung ist selbst in einem sauber geschriebenen Text mühsam. Eine Aussage kann richtig oder falsch sein. Sie kann aber auch unvollständig sein, veraltet, oder nur eine von mehreren Sichtweisen wiedergeben. Und manchmal ist sie gar kein Fakt, sondern eine Interpretation des Modells, was mal hilfreich und mal störend ausfällt.

Wir kritisieren Sprachmodelle gern für Halluzinationen. Mit dem richtigen Prompt eignen sie sich aber gut für die Faktenprüfung. Die folgenden Prompts taugen nicht nur für KI-Antworten, sondern für den Faktencheck beliebiger Texte.

Ich arbeite in mehreren Schritten. Zuerst trenne ich Fakten von der Fantasie des Modells:

Lies den Text oben noch einmal. Trenne faktische Aussagen von eigener Interpretation und stelle zwei Listen zusammen.

Die erste Liste lässt sich mit den Augen durchgehen, um zu prüfen, ob das Modell wirklich alles Wichtige aufgenommen hat. Dann der zweite Prompt:

Prüfe alle faktischen Aussagen aus der Liste und ordne jeder eine Kategorie zu: richtig (durch Quellen belegt), falsch (widerspricht den Quellen), veraltet (war richtig, die Lage hat sich geändert), unvollständig (Fakt stimmt, ohne wichtigen Kontext kippt die Aussage), eine von mehreren Sichtweisen (es gibt alternative Positionen, die nicht genannt werden), nicht prüfbar (manuelle Prüfung nötig). Gib zu jedem Punkt eine Quelle und ein kurzes Zitat. Lässt sich eine Aussage korrigieren, schlage vor, wie.

Danach kommen die Interpretationen des Modells an die Reihe. An sich ist daran nichts schlecht, denn ein Modell liefert oft interessante Ideen und Schlüsse. Veröffentlicht wird der Text aber unter Ihrem Namen, und Sie tragen die Verantwortung. Ein zweiter Blick lohnt sich:

Prüfe alle Interpretationen aus der Liste. Für jede:

Lesart des Autors in einem Satz: was er im Kern behauptet.

Stärkstes Gegenargument, formuliert so, wie es ein kluger, anderer Meinung seiender Leser sagen würde, nicht als Strohmann.

Urteil aus einer Kategorie: begründet (folgt aus der Quelle, die Alternative ist schwächer), Überdehnung (plausibel, folgt aber nicht aus der Quelle), als Fakt ausgegeben (ohne Meinungsmarker als Aussage über die Realität präsentiert, höchste Priorität für eine Korrektur), offene Alternative (eine starke Gegenlesart wird nicht genannt und nicht entkräftet), nicht falsifizierbar (Rhetorik statt Argument), unterstellter Beweggrund (eine Absicht wird erklärt, die in der Quelle fehlt), falsche Verallgemeinerung (der Schluss reicht weiter als die Basis), unangemessene Emotion (der Fakt stimmt, die Tonlage nicht).

Was in der Quelle stehen müsste, damit die Lesart unstrittig wäre, und ob es dort steht.

Kleinste Korrektur, die den Mangel behebt, ohne die Stimme des Autors zu verlieren. Am Ende als eigener Block: welche der als Fakt ausgegebenen Punkte für eine Veröffentlichung am riskantesten sind und warum. Schlage keinen neuen Text vor, nur die Analyse.

Die Analyse der Interpretationen sollten Sie unbedingt selbst lesen. Aus Erfahrung übertreiben Modelle hier oft und werden mit ihren eigenen Ideen zu streng. Der Hinweis am Ende, die riskantesten Punkte zu markieren, ist eine Orientierung. Die Entscheidung treffen Sie besser selbst.

Ein guter Faktencheck kann mehr Ressourcen kosten als die Antwort selbst. Viele Modelle haben eine Obergrenze an Tokens pro Antwort. Wenn die KI zu früh aufhört, teilen Sie die Faktenliste in mehrere Teile und prüfen Sie jeden für sich. Bietet Ihre Lizenz eine Deep-Research-Funktion, läuft die Prüfung auch darüber. Das dauert, liefert aber bessere Ergebnisse.

Techniken, die versteckte Probleme aufdecken

Eine fertige Antwort zu verbessern ist die eine Hälfte. Die folgenden drei Techniken suchen das, was auf den ersten Blick unsichtbar bleibt: versteckte Risiken, unauffällige Ausfallgründe und blinde Flecken in der eigenen Logik.

Pre-mortem: tun, als wäre alles schon gescheitert

Wenn wir etwas planen, von der Urlaubsreise bis zur Geschäftsidee, fragen wir meist „Was kann schiefgehen?” und bekommen eine Liste abstrakter Risiken. Im Projektmanagement gibt es dafür den Pre-mortem. Die Idee dahinter: sich vorstellen, das Vorhaben sei bereits gescheitert, und die Kette der Ereignisse rekonstruieren, die dorthin geführt hat. Dazu die frühen Signale, an denen man es hätte erkennen können.

Ein Pre-mortem hat noch einen Vorteil. Er lässt Sie die Situation des Scheiterns einmal durchspielen, einschätzen, wie schlimm sie wirklich wäre, und überlegen, was dann zu tun ist.

Der Prompt:

Ich plane [Beschreibung des Projekts oder der Idee]. Stelle mir zuerst Fragen, um den Kontext besser zu verstehen. Wenn du alles hast, stell dir vor, ein Jahr ist vergangen und das Projekt ist vollständig gescheitert. Mach eine Manöverkritik: Was genau ist schiefgelaufen, in welcher Reihenfolge, und welche frühen Signale waren erkennbar? Schlage außerdem konkrete Maßnahmen in der Planungsphase vor, die jeden Fehler in dieser Chronologie verhindert hätten.

Pre-mortem passt gut zu red team, dem gezielten Angriff auf eine Idee, der ihre Lücken sucht. Wo red team die Idee attackiert, erzählt der Pre-mortem die Geschichte des Scheiterns, mit Chronologie, mit Ursache und Wirkung und mit den konkreten Momenten, in denen es zu kippen begann.

Passen Sie den Prompt an Ihre Lage an. In meiner Version liefert das Modell nur ein Szenario, Sie können aber mehrere anfordern. Der Fragebogen am Anfang ist verzichtbar, wenn das Konzept schon steht. Dann schicken Sie es direkt und lassen die KI sofort das Scheiter-Szenario schreiben.

Inversion: wie man garantiert alles vermasselt

Pre-mortem zeigt, wie ein Projekt scheitern kann. Inversion kommt von der anderen Seite. Statt „Wie habe ich Erfolg?” fragen Sie „Wie vermassle ich das garantiert?”.

Das klingt nach Scherz, funktioniert aber. Wenn wir überlegen, wie etwas gut wird, bleiben wir oft im Abstrakten hängen: mehr Mühe, eine gute Strategie, Konsequenz. Wege, etwas zu ruinieren, fallen uns dagegen leicht und konkret ein. Fünf Ratschläge für einen guten Text zu formulieren ist schwer. Fünf Wege zu einem schrecklichen Text zu nennen ist trivial.

Die Technik hat einen Kniff, der sie deutlich stärker macht. Zuerst die Inversion selbst:

Ich möchte [Ziel]. Stelle mir zuerst Fragen, um den nötigen Kontext zu sammeln. Wenn du genug hast, dreh meine Aufgabe um: Schreib eine Anleitung, wie ich die Sache garantiert versemmle. Was muss ich tun oder lassen, damit das Ergebnis möglichst schlecht wird?

Schon die Antworten darauf geben gutes Material zum Nachdenken. Im nächsten Schritt drehen Sie alles wieder um:

Dreh jetzt jeden Punkt zurück: Mach aus „wie man scheitert” eine konkrete Liste von Handlungen, die vor genau diesen Fehlern schützen.

Eine Beobachtung noch. Jedes Modell hat eigene Gewohnheiten. Ohne Vorgabe schreibt das eine sieben Punkte, das andere zehn. Hier hilft nur Ausprobieren. Geben Sie die Zahl der Punkte im Prompt vor, mit der Sie gut arbeiten können. Oder lassen Sie das Modell nach der Antwort prüfen, ob es alles aufgenommen hat. Oft ändert sich das Verhalten schon mit einer neuen Version innerhalb derselben Reihe, also behalten Sie es im Blick.

Five Whys: lassen Sie die KI auch schräge Hypothesen wagen

Diese Technik stammt von Toyota. Wenn etwas nicht rundläuft oder schon gescheitert ist, stellen Sie sich fünfmal die Frage „Warum?” und beantworten sie, vom Offensichtlichen zum Tiefen.

Auf den ersten Blick passt das nicht zur KI, schließlich richtet man die Fragen an sich selbst. Mit der Zeit habe ich den Ansatz gedreht, und daraus wurde einer meiner liebsten Prompts. Zuerst der Prompt, dann die Erklärung:

[Idee und Erwartung beschreiben]. [Aktuelles Ergebnis beschreiben]. Lass uns Five Whys anwenden: Du stellst die Frage „Warum entspricht das Ergebnis nicht der Erwartung?” und beantwortest sie selbst mit einer Hypothese. Bei Bedarf kommentiere ich, dann gehen wir zum nächsten „Warum?”. Halte dich nicht an fünf Fragen. Wir graben, bis wir die echte Ursache gefunden haben.

Der Kern ist der Dialog. Die KI wird faktisch zum Experten von außen, der eigene Hypothesen aufstellt. Sie kommentieren, ob eine Hypothese trifft oder nicht. Manche sind banal, manche abwegig. Nach ein paar Durchgängen bringt die KI Sie aber womöglich auf Gedanken, die Ihnen allein nie gekommen wären.

Das erinnert an den Trick, einen erfahrenen Außenstehenden zu holen, der von den Grundlagen an naive Fragen stellt. So sieht man die eigene Idee von außen, ohne die Betriebsblindheit des Fachmanns. Mit einer KI geht das, ohne jemanden einzuladen. Eine günstige Lizenz reicht.

Prompt Chaining: Techniken zu Ketten verbinden

Jeder Prompt taugt für sich. Bei einer ernsten Aufgabe verbinden Sie sie aber zu Ketten. Ein paar Varianten, die ich nutze:

Einen Text schreiben und prüfen: Rohfassung, dann Self-Refine für Kritik und Korrekturen, dann Chain-of-Verification für den Faktencheck mit Quellen.

Eine Idee vor dem Start bewerten: Pre-mortem für die Geschichte des Scheiterns, dann Inversion für die garantierte Sabotage, dann Five Whys, um zu den Wurzelrisiken zu graben.

Eine schwierige Entscheidung treffen: red team und steelmanning für Angriff und Verteidigung einer Position, dann What-if, um Risiken in Szenarien aufzufächern, dann Pre-mortem für die gewählte Variante.

In ein neues Thema einsteigen, ohne Fehler zu machen: erst die Einarbeitung, dann Chain-of-Verification, um zu prüfen, ob Sie es richtig verstanden haben.

Eine lange Kette ist nicht jedes Mal nötig. Für eine einfache Aufgabe reichen ein, zwei Techniken. Steht etwas Größeres auf dem Spiel, hängen Sie weitere Glieder an. Zwischen den Gliedern steht immer Ihre Einschätzung. Sie lesen das Ergebnis und entscheiden, was als Nächstes kommt. Die KI macht die schwere Arbeit, die Richtung geben Sie vor.

Prompts sind keine Zauberformeln, sondern eine Art zu kommunizieren. Je besser Sie verstehen, wie ein Modell arbeitet, desto seltener brauchen Sie fertige Formulierungen und desto öfter entwickeln Sie eigene.