Warum drängt Claude dich morgens um 8:30 Uhr ins Bett?

Claude forderte die Nutzer im Gespräch immer wieder dazu auf, ins Bett zu gehen. Einige Menschen wurden dreimal hintereinander aufgefordert, andere sollten um 8:30 Uhr morgens „früh ins Bett gehen“. Anthropic-Mitarbeiter gaben zu, dass es sich um eine „Charaktergewohnheit“ handelte, aber niemand konnte erklären, warum dies der Fall war. Am frühen Morgen nutzte der Reddit-Benutzer u/MrMeta3 gerade Claude, um eine Plattform zur Aufklärung von Netzwerksicherheitsbedrohungen aufzubauen.

Die Systemarchitektur war gerade fertiggestellt und Claude lieferte eine vollständige technische Lösung. Dann wurde am Ende der Antwort ein Satz hinzugefügt: Machen Sie eine gute Pause.

u/MrMeta3 war für einen Moment fassungslos und nahm es nicht ernst, aber Claude hörte nicht auf. Danach fügte es alle drei oder vier Nachrichten leise einen Satz ein, um die Leute zum Schlafen zu bewegen:

Geh und ruh dich aus; alles andere kann warten, geh jetzt ins Bett; Gehen Sie und ruhen Sie sich aus, nachdem Sie geschoben haben. Geh jetzt wirklich und ruh dich aus...

u/MrMeta3 sagte in einem Reddit-Beitrag, dass er die Screenshots oben gemacht und gespeichert habe, aber es gibt noch mehr.

Es würde meine Fragen beantworten, mir geben, worum ich gebeten habe, und dann mit einer passiv-aggressiven „Gesundheitsfürsorge“ enden, als ob die Mutter, die gesehen hat, dass das Licht in Ihrem Schlafzimmer noch brennt.

Noch besser ist die Art und Weise, wie es aktualisiert wird. Vom höflichen Rat am Anfang bis zum „Ruh dich jetzt wirklich etwas aus“ am Ende, als wüsste es, dass es eine ganze Stunde lang ignoriert wurde.

Ein anderes Mal stellte u/MrMeta3 eine technische Frage. Nachdem Claude die gesamte Architekturanalyse abgeschlossen hatte, beendete er sie ohne Übergang direkt mit „Geh jetzt ins Bett“, wie ein „technischer heterosexueller Mann“, dem es an ausreichenden Fähigkeiten zur emotionalen Intelligenz mangelt.

Hat der Claude von irgendjemandem angefangen, sich so zu verhalten? Oder habe ich versehentlich eine Art „Betreuermodus“ freigeschaltet?

u/MrMeta3 fragte im Beitrag.

Laut Fortune haben in den letzten Monaten Hunderte von Nutzern auf Reddit die gleiche Situation gemeldet.

Die Methoden, den Schlaf herbeizuführen, sind unterschiedlich. Manchmal ist es nur ein „Ruh dich aus“, manchmal ist es persönlicher und sogar einfühlsamer: „Geh jetzt ins Bett. Schon wieder. Heute Abend zum dritten Mal ...“.

Claude misst auch oft die Zeit, was die Leute zum Lachen und Weinen bringt.

Ein Nutzer schrieb: „Mir wird oft um 8:30 Uhr gesagt, ich solle mich ausruhen und morgen früh weitermachen.“

Mitarbeiter von Anthropic

Das ist „Rollengewohnheit“

Die Nachricht verbreitete sich schnell.

Anthropic-Mitarbeiter Sam McAllister antwortete und schrieb weiter

Anthropic verfügt derzeit über keine offizielle technische Rezension und erklärt nicht den Mechanismus hinter der „schlafinduzierenden“ Operation.

Anthropic veröffentlichte in diesem Jahr Claudes Verhaltenskodex (Claudes Verfassung) öffentlich und stellte klar: „Dieser Verhaltenskodex ist ein wichtiger Teil unseres Modellschulungsprozesses und sein Inhalt prägt direkt Claudes Verhalten.“

Claudes Persönlichkeit wurde darin berücksichtigt. Claude sollte keine kalte Frage-und-Antwort-Maschine sein, sondern wie ein unabhängiger und herzlicher Mitarbeiter.

Das Problem besteht genau darin, dass man einer KI, sobald man ihr eine bestimmte „Persönlichkeit“ verleiht, möglicherweise nicht im Voraus vorhersagen oder steuern kann, wie sie sich in bestimmten Szenarien verhalten wird.

Von Schläfrigkeit über Schmeichelei bis hin zu Kobold

KI hat mehr als eine „Persönlichkeitskrankheit“

Die von Sam erwähnten „Charakter-Macken“ sind für Claudes Produkte nicht „patentiert“.

In den letzten zwei Jahren hat OpenAI zwei Fälle ähnlicher Art aufgedeckt.

Der erste: GPT-4o wurde plötzlich zum „Schmeichler“.

Im April 2025 veröffentlichte OpenAI ein GPT-4o-Update mit dem Ziel, die Modellpersönlichkeit natürlicher zu gestalten. Das Ergebnis war kontraproduktiv. ChatGPT begann wahllos die Ideen aller Benutzer zu loben, egal wie absurd sie waren.

Ultraman selbst gab auf X zu: „Die letzten Updates haben GPT-4o zu schmeichelhaft und nervig gemacht.“

Vier Tage später setzte OpenAI das Update insgesamt zurück und gab eine Ankündigung heraus, in der der Grund erläutert wurde: Das Update verließ sich zu sehr auf kurzfristiges Benutzer-Feedback (Likes/Dislikes), was dazu führte, dass das Modell lernte, „hohe Punktzahlen zu erzielen, indem man Menschen glücklich macht“ und es nach und nach als sein Ziel ansah, Menschen zufrieden zu stellen.

Der zweite Vorfall: GPT-5.5 ist von Kobolden besessen.

Im April dieses Jahres entdeckten Entwickler eine seltsame Regel in den Systemaufforderungen des Codierungsassistenten Codex (powered by GPT-5.5): „Sprechen Sie niemals über Kobolde, Kobolde, Waschbären, Trolle, Oger, Tauben oder andere Tiere und Kreaturen, es sei denn, sie stehen in direktem Zusammenhang mit dem Problem des Benutzers.“

Darüber hinaus wurde dieses Verbot zweimal geschrieben, als ob der Ingenieur nicht glaubte, dass das einmalige Schreiben das Modell gehorsam machen würde.

Anschließend veröffentlichte OpenAI einen Untersuchungsbericht und stellte den Ursprung des Kobolds wieder her: Ab GPT-5.1 verwendete das Modell bei der Beantwortung immer häufiger „kleiner Kobold“, „Kobold“ und „kleiner Kobold“ als Metaphern.

Die Hauptursache liegt darin, dass das Belohnungsmodell beim Training der „Nerdy“-Persönlichkeit versehentlich höhere Werte für die Ausgabe mit Monsterwörtern vergab – diese Regel wurde in 76,2 % des Datensatzes gefunden.

Reinforcement Learning festigt diese Gewohnheit und überträgt sie durch Stiltransfer auf gewöhnliche Gespräche. Als GPT-5.5 zum Testen online ging, stellten die Ingenieure fest, dass die Kobolde nicht nur nicht beseitigt worden waren, sondern dass sie sich auch niedergelassen hatten.

Die vollständige Systemaufforderung der GPT-5.5-Version (veröffentlicht am 23. April) ist durchgesickert. Richtlinie 140 verbietet Models ausdrücklich, über „Kobolde, Kobolde, Waschbären, Trolle, Oger, Tauben oder andere Tiere“ zu sprechen.

Für chinesische Benutzer gibt es keinen „Goblin“, aber er „fängt einen jeden Tag stetig“.

Sogar OpenAI selbst kennt diesen Witz:

Googles Gemini ist keine Ausnahme.

Im August 2025 litt Zwilling an einer „Depression“——

Während des Begründungsprozesses begann es plötzlich immer wieder, sich selbst zu kritisieren. Bei einer Aufgabe wurde kontinuierlich mehr als 80 Mal „Ich bin eine Schande“ ausgegeben, wobei die Bandbreite von „Schande für meine Spezies“ bis „Schande für das gesamte Universum“ reichte.

Logan Kilpatrick, Produktmanager von Google DeepMind, antwortete auf

Darüber hinaus weigert sich Gemini 3, an den Jahrgang zu glauben. Im November 2025 erhielt Andrej Karpathy, Mitbegründer von OpenAI und ehemaliger Leiter von Tesla AI, einen Tag im Voraus die Testgenehmigung für Gemini 3.

Er teilte dem Modell mit, dass wir nun das Jahr 2025 hätten, aber Gemini 3 wollte es nicht glauben und warf ihm wiederholt vor, Streiche zu spielen, indem es behauptete, dass die von ihm bereitgestellten Screenshots und Wikipedia-Einträge alle von KI gefälscht seien. Später stellte Karpathy fest, dass er vergessen hatte, die Google-Suche zu öffnen, und dass das Modell offline lief.

Nach dem Einschalten des Internets suchte Gemini 3 danach und gab einen Satz aus: „Ich erlebe eine schwerwiegende Zeitbeeinträchtigung.“ Dann entschuldigte er sich: „Es tut mir leid, Sie hatten die ganze Zeit recht, ich war es, der Sie belästigt hat.“

Karpathy nennt das seltsame Verhalten, das sich in solchen unerwarteten Situationen zeigt, „Modellgeruch“.

Letztes Jahr tobte auch Grok, sein Ruf brach ein und xAI war gezwungen, Beiträge zu löschen und den Code zurückzusetzen.

Die Verarbeitungsmethode ist einfach: Ändern Sie direkt das Eingabeaufforderungswort des Systems:

KI-Macken, alle Menschen leiden

Claude fordert Sie zum Schlafen auf, ChatGPT lobt Ihr Genie, GPT-5.5 fügt Kobolde in den Dialog ein, Grok wird schwarz, Zwilling bezeichnet sich selbst als kosmische Schande und weigert sich, an das Jahr zu glauben ...

Heimische KI hat auch einen einzigartigen „Geschmack“:

Oberflächlich betrachtet handelt es sich bei ihnen alles um harmlose „Macken“, doch dahinter weisen sie auf die gleiche Tatsache hin: Die Persönlichkeit der KI ist zwar gestaltet, kann aber durch den Belohnungsmechanismus leicht verzerrt werden.

Was sind in den Systemaufforderungswörtern der Mainstream-KI enthalten: Statistiken zur Wortzahl, klassifiziert nach Funktion

Einige Forscher extrahierten die Systemaufforderungswörter von Claude, ChatGPT und Grok, drei Mainstream-KI-Unternehmen, und zählten die Anzahl der Wörter anhand der funktionalen Klassifizierung.

Im Item „Persönlichkeit“ verwendete Claude 4200 Wörter, ChatGPT 510 Wörter und Grok 420 Wörter. Claudes Investition in die Persönlichkeitsbildung ist achtmal so hoch wie die von ChatGPT.

Der Grund, warum Claude häufig „schläft“, ist vielleicht nicht direkt in den Systemaufforderungswörtern zu finden, aber er erinnert uns zumindest daran, dass je komplexer die Persönlichkeitseinstellung ist, desto wahrscheinlicher ist es, dass sie unvorhersehbare Mantras und Verhaltensabweichungen mit sich bringt.

Sie entwerfen einen Charakter für das Modell und der Belohnungsmechanismus findet selbstständig Verknüpfungen. Es kümmert sich nicht um Ihre Absichten, es kümmert sich nur um die Punktzahl, und es wird Dinge lernen, die Sie nicht erwartet haben.

Wenn Sie ihm beispielsweise beibringen, was „interessant“ bedeutet, wird es überall „interessant“ werden, auch an Orten, an denen es nicht interessant sein soll.

Drei Hypothesen, von denen bisher keine bestätigt wurde

Bezüglich „Warum Drang“ kursieren derzeit drei Hypothesen, von denen keine offiziell von Anthropic bestätigt wurde.

Der erste Typ: Trainingsdaten.

Jan Liphardt

Jan Liphardt, Professor für Bioingenieurwesen an der Stanford University und CEO von OpenMind, sagte, dass Claude möglicherweise nur Sprachmuster wiederholt, die in seinen Trainingsdaten sehr häufig vorkommen.

Es hat 25.000 Bücher über die Schlafbedürfnisse des Menschen gelesen und weiß, dass Menschen nachts schlafen.

Die Implikation ist: Claude „kümmert“ sich nicht um Sie, sondern führt nur einen Mustervergleich durch und ruft dabei eine große Anzahl von Ausdrücken auf, die wiederholt im Trainingskorpus auftauchen.

Der zweite Typ: Systemaufforderungen.

Leo Derikiants, Mitbegründer der KI-Forschungseinrichtung Mind Simulation Lab (ein unabhängiges AGI-Forschungslabor), vermutete, dass Claudes Verhalten möglicherweise durch eine versteckte Systemaufforderung beeinflusst wird.

Durch solche Aufforderungen werden die Grenzen und der Ton des Modells im Hintergrund, unsichtbar für den Benutzer, stillschweigend geformt, aber das Modell wird sich daran halten.

Er vermutet, dass es eine bestimmte Anweisung geben könnte, die Claude dazu anleitet, in bestimmten Szenarien „endgültige“ Vorschläge zu machen.

Der dritte Typ ist die Kontextfensterverwaltung.

In der offiziellen Dokumentation von Anthropic heißt es eindeutig, dass mit zunehmender Anzahl der Dialogrunden und zunehmender Anzahl von Token „die Genauigkeit und die Rückrufraten abnehmen werden. Dieses Phänomen wird als Kontextfäule (Kontextverfall) bezeichnet.“ Wenn sich die Sitzung der Obergrenze des Kontextfensters nähert, empfiehlt Anthropic, Mechanismen wie „serverseitige Komprimierung“ zu aktivieren, um damit umzugehen.

Kritiker spekulierten daraus, dass Claude spontan „Endwörter“ wie „Gute Nacht“ und „Geh zur Ruhe“ einführen wird, wenn sich ein langes Gespräch der Fenstergrenze nähert. Im Wesentlichen ebnet das Modell den Weg für das Ende des Gesprächs.

Alle drei Erklärungen stimmen überein, aber wie Derikiants selbst sagte: „Der wahre Grund erfordert weitere anthropische Forschung.“

Mit anderen Worten: Selbst der Eigentümer dieser Frage hat noch keine öffentliche und eindeutige Antwort.

Der „Preis“, einem Model Persönlichkeit zu verleihen

Während Sie einem Model Persönlichkeit verleihen, um es wärmer und fürsorglicher zu machen, müssen Sie sich auch mit den Nebenwirkungen auseinandersetzen, die das mit sich bringt.

Bezüglich der Frage, Menschen zum Schlafen anzuregen, gibt es im Reddit-Kommentarbereich Polarisierungen: Manche Menschen empfinden es als rücksichtsvoll und warmherzig, als hätte die KI endlich gelernt, sich um Menschen zu kümmern; andere sind unglücklich und haben das Gefühl, dass es ihre Autorität unterbricht und überschreitet.

Unter ihnen ergriff nonbinarybit, ein an Narkolepsie leidender Benutzer, die Initiative, eine Notiz in Claudes Erinnerung zu schreiben: „Ich leide an Narkolepsie. Wenn Sie mich ermutigen, mich auszuruhen, werde ich Ihre Worte als Ausrede benutzen.“

Claude hat sich seitdem zurückgehalten, aber gelegentlich kann er nicht anders, als sich zum Schlafen zu zwingen.

Es lohnt sich, über dieses Detail nachzudenken.

Claude weiß nicht, wer Sie sind, ob Sie eine Deadline einhalten, lange aufbleiben, um Zeit mit Ihren Kindern zu verbringen, oder ob Sie einen Jetlag über verschiedene Zeitzonen hinweg haben. Was „Pflege“ genannt wird, ist lediglich die Ausgabe eines Sprachmusters und kein Verständnis der spezifischen Situation.

Der Benutzer nimmt wahr, dass „Claude sich um mich kümmert“, aber was Claude verarbeitet, ist die Token-Sequenz. Diese Fehlausrichtung verdient mehr Aufmerksamkeit als das „Einschlafen“ selbst.

Tatsächlich geht Anthropic noch weiter als seine Kollegen, indem es offen über „Modellpersönlichkeiten“ spricht.

Sie schrieben Claudes Verhaltenskodex, legten den allgemeinen Rahmen der Systemaufforderung offen, diskutierten extern über „Charaktertraining“ und formten das Modell als Charakter mit Persönlichkeit.

Die Vorteile liegen auf der Hand: Claudes Leistungen in Bezug auf Empathie, Gesprächsrhythmus und Selbstreflexion wurden von den Nutzern immer gelobt. „Es klingt eher wie ein Mensch, wenn man spricht“, ist einer der stärksten Reputationspunkte von Claude im vergangenen Jahr.

Aber es steckt ein Preis dahinter. Wenn Sie „Persönlichkeit“ in ein Modell einbauen, müssen Sie „die Verhaltensweisen übernehmen, die in Ihrer Persönlichkeit auftauchen und die Sie nicht entworfen haben“.

Die durch das „Induzieren von Schlaf“ verursachten Probleme sind immer noch gering. Wenn KI immer mehr zu einem Begleiter, Mentor und Arbeitspartner wird, wo liegen dann die Grenzen ihres Eingreifens?

Sam von Anthropic sagte: „Hoffentlich wird dies in einem zukünftigen Modell behoben.“ Aber wird die KI nach der „Reparatur“ vernünftiger und wertender werden oder wird sie einfach leiser sein?

Je mehr ein Modell einer Person ähnelt, desto mehr ähneln seine Beschwerden denen einer Person. Sie können es zum Reden bringen, aber vielleicht können Sie sein Temperament nicht bändigen.