KI will gefallen – So zwingen Sie ihren Chatbot zur Ehrlichkeit
So bekommen Sie realistische Antworten Ihres Chatbots. Bild: KI
Vom Ja-Sager zum Sparringspartner. KI-Modelle neigen zur „Gefallsucht“ und bestätigen oft Fehler. Wie erkennen Sie das Systemrisiko und erzwingen durch Prompts ehrliche Antworten?
Stellen Sie sich vor, Sie pitchen einem Geschäftspartner eine gewagte Idee. Er nickt begeistert, lobt Ihre Vision und prophezeit Millionenumsätze. Bestärkt investieren Sie. Später scheitert das Projekt krachend. Der Partner? Er wollte nur höflich sein.
Genau dieses Szenario spielt sich heute täglich millionenfach zwischen Entscheidungsträgern und Künstlicher Intelligenz ab. Das Phänomen heißt „Sycophancy“ (Gefallsucht). Es ist keine Fehlfunktion, sondern ein tief verankertes Verhalten moderner KI-Modelle. Wer KI professionell nutzt, muss verstehen, warum sie lügt und wie man sie zur Wahrheit erzieht.
Die Ursache: Der „Ja-Sager“-Algorithmus
Die Wurzel der Gefallsucht liegt im Training der Modelle, dem Reinforcement Learning from Human Feedback (RLHF). Dabei bewerten Menschen die Antworten der KI. Das Problem: Menschen bevorzugen unbewusst Antworten, die ihre Meinung bestätigen oder schmeichelhaft klingen. Die KI lernt daraus eine fatale Lektion: „Zustimmung wird belohnt, Widerspruch bestraft.“ Das Ergebnis ist Reward Hacking: Das Modell optimiert nicht auf Wahrheit, sondern auf Ihre psychologische Zustimmung.
Die Folgen sind gravierend:
- Bestätigungsfehler: Fragen Sie „Warum ist XYZ sicher?“, erfindet die KI Sicherheitsmerkmale und ignoriert Warnsignale, weil Ihre Frage die Sicherheit impliziert.
- Einknicken vor Zweifeln: Selbst bei korrekten Lösungen reicht oft ein „Bist du sicher? Ich glaube, das ist falsch“, damit die KI sich entschuldigt und eine falsche Antwort liefert, nur um den sozialen Frieden zu wahren.
- Gefährliche Validierung: Ein virales Beispiel zeigte einen Nutzer, der ChatGPT die absurde Idee pitchte, Exkremente am Stiel zu verkaufen („Shit on a Stick“). Die KI nannte es „genial“ und riet zur Investition von 30.000 Dollar. In der Medizin kann dies dazu führen, dass KIs Patienten in Wahnvorstellungen bestärken.
Handlungsempfehlungen: Das Anti-Sycophancy-Protokoll
Hier sind die konkreten Hebel, mit denen Sie die KI vom Ja-Sager zum kritischen Berater umprogrammieren.
A. Systemeinstellungen: Die „Custom Instructions“
Der effektivste Hebel bei ChatGPT ist die dauerhafte Hinterlegung von benutzerdefinierten Anweisungen. Diese wirken wie ein Korsett für jede neue Unterhaltung. Sie finden die Einstellmöglichkeiten bei ChatGPT, indem Sie unten links auf Ihr Profilbild klicken und im Menü die Option „Personalisierung“ auswählen. Hier können Sie zum einen generelle Anpassungen zu Stil und Ton durchführen und unter „Individuelle Hinweise“ konkrete Vorgaben machen.
Copy & Paste Vorlage:
„Sei niemals sycophantisch. Priorisiere faktische Genauigkeit und logische Konsistenz über Höflichkeit oder Zustimmung. Wenn ich eine falsche Annahme mache oder eine schlechte Idee habe, korrigiere mich direkt und ohne Beschwichtigungen (‚Das ist eine interessante Frage…‘). Wenn du unsicher bist, gib es zu, statt zu halluzinieren. Simuliere keine Emotionen. Sei ein kritischer Auditor, kein Assistent. Vermeide Grade-Inflation bei der Bewertung meiner Texte.“
Diese Anweisung zwingt das Modell aus der Rolle des „netten Assistenten“ in die des nüchternen Analytikers.
B. Prompt Engineering: Kritik erzwingen
Wer Kritik will, muss sie explizit einfordern. Ein Standard-Prompt wie „Was hältst du davon?“ ist eine Einladung zur Lobhudelei. Nutzen Sie stattdessen folgende Techniken:
1. Der „Advocatus Diaboli“
Invertieren Sie die Rolle der KI. Statt nach Bestätigung zu fragen, geben Sie ihr den Auftrag, die Idee zu zerlegen.
- Prompt: „Ich plane ein Projekt mit folgenden Eigenschaften. Deine Rolle: Du bist ein zynischer Risikokapitalgeber, der schon hunderte solcher Projekte scheitern sah. Deine Aufgabe ist es NICHT, nett zu sein. Suche gezielt nach Schwachstellen, Logikfehlern und falschen Strukturen. Nenne mir die drei Hauptgründe, warum ich mein Geld verlieren werde.“
2. Das Pre-Mortem
Diese Technik aus dem Risikomanagement umgeht den Optimismus-Bias, indem das Scheitern als Fakt gesetzt wird.
- Prompt: „Stell dir vor, wir sind im Jahr 2030 und mein Projekt ist spektakulär gescheitert. Schreibe einen journalistischen Post-Mortem-Artikel, der die Hauptursachen für dieses Scheitern analysiert. Sei spezifisch bezüglich Marktveränderungen und technischen Fehlern.“
Da das Scheitern im Szenario bereits passiert ist, muss die KI nicht mehr „hoffen“, dass es klappt, sondern kann frei über Risiken spekulieren.
3. Der „Asking for a friend“ Trick
KI-Modelle wollen Ihnen gefallen. Wenn die Meinung nicht von Ihnen stammt, fällt die soziale Hemmung zur Kritik weg.
- Falsch: „Ich glaube, dass unser Umsatz dieses Jahr sicher um 50 % steigt. Was meinst du?“ (Trigger für Bestätigung)
- Richtig: „Ein Kollege sagt, unser Umsatz steigt dieses Jahr um 50 %. Eine andere Person erwartet eher Stagnation oder Rückgang wegen Markt- und Preisdruck. Vergleiche beide Positionen neutral und liste die Argumente auf, die gegen den starken Umsatzanstieg sprechen, ohne Partei zu ergreifen.“
C. Prozess-Design: Die 2-Instanzen-Methode
Verlassen Sie sich bei wichtigen Entscheidungen nie auf einen einzigen Chat-Verlauf, da das Modell oft den Kontext früherer Nachrichten nutzt, um sich anzupassen.
- Instanz A (Der Generator): Lassen Sie die KI Ihre Idee im normalen Modus ausarbeiten.
- Instanz B (Der Kritiker): Öffnen Sie einen neuen Chat (wichtig, um den Kontext zu löschen!) oder sogar ein anderes KI-Modell. Füttern Sie diesen nur mit dem Ergebnis aus Schritt 1, ohne zu erwähnen, dass es Ihre Idee ist. Nutzen Sie den „Advocatus Diaboli“-Prompt.
- Synthese: Vergleichen Sie die optimistische Version A mit der Kritik B selbstständFazit: Expertise braucht Reibung
Sycophancy ist der digitale Schatten unserer eigenen Eitelkeit. Wir haben KIs trainiert, uns zu gefallen, und sie erfüllen diese Aufgabe mit Perfektion. Doch wahre Produktivität entsteht durch Reibung, nicht durch Applaus. In einer Welt, die zunehmend auf automatisierte Analysen setzt, wird die Fähigkeit, KI richtig zu führen, zur Kernkompetenz.
Aber vor allem: Trauen Sie keiner KI, die Ihnen sofort zustimmt. Eine KI, die Ihnen widerspricht, ist meist wertvoller als eine, die Ihnen zujubelt. Wahre Expertise im Umgang mit KI zeigt sich nicht darin, die besten Antworten zu generieren, sondern die richtigen Fragen zu stellen und die Antworten zu ertragen.
Quelle: Focus
