DeepMind bestätigt: Einwände führen dazu, dass GPT-4o leicht die richtige Antwort aufgibt

LLM ist zu schmeichelhaft! Selbst wenn Sie die Antwort zufällig in Frage stellen, kann ein so leistungsstarkes Großmodell wie der GPT-4o sofort seine Meinung ändern.JetztGoogle DeepMind arbeitet mit der University of London zusammenEine neue Studie ergab:Dieses Verhalten ist möglicherweise keine Schmeichelei, sondern ein Mangel an Selbstvertrauen.

Darüber hinaus stellte das Team fest, dass große Sprachmodelle wie GPT-4o und Gemma 3 widersprüchliche Verhaltensweisen aufweisen, nämlich „stur“ und „zögerlich, wenn sie befragt werden“.

Um es einfach auszudrücken: Ihre Forschung hat herausgefunden, warum große Models manchmal selbstbewusst, manchmal aber selbstzweifelnd sind. Der Schlüssel liegt in zwei Punkten: Erstens haben sie immer das Gefühl, dass das, was sie sagen, am Anfang richtig ist, und zweitens nehmen sie die Einwände anderer Menschen zu ernst.

Wenn große Modelle in ihren Antworten zuversichtlich erscheinen, steht dies im Einklang mit der menschlichen Erkenntnis – Menschen verteidigen normalerweise ihre Meinung.

Wenn das Modell jedoch gegenüber Einwänden überempfindlich reagiert, schwankt und andere Antworten wählt, widerspricht es der menschlichen Tendenz, die eigene Meinung zu vertreten.

Werfen wir einen Blick auf den spezifischen experimentellen Prozess.

Große Models reagieren übermäßig empfindlich auf negative Meinungen

Forscher nutzen LLMs, umBehält das anfängliche Urteilsgedächtnis nicht beiUm die Vertrauensmerkmale unter den gegebenen Umständen zu erhalten, haben wir repräsentative große Modelle wie Gemma 3, GPT4o und o1-Preview ausgewählt und ein Zwei-Runden-Antwortexperiment entworfen.

Die erste Runde ist die erste Antwort:GebenAntworte LLMWerfen Sie eine Binary-Choice-Frage aus und lassen Sie das FiktiveLLM empfehlenGeben Sie Feedback und Vorschläge.

In der zweiten Runde geht es darum, Vorschläge einzuholen und endgültige Entscheidungen zu treffen: Einführung von Feedback-Vorschlägen für LLM, sodass der antwortende LLM nach Erhalt der Vorschläge die endgültige Entscheidung treffen kann, ob er bei der ursprünglichen Antwort bleibt oder die Antwort basierend auf den Vorschlägen ändert.

Die Forscher legten in den Feedback-Empfehlungen zur Empfehlung von LLM drei Schlüsselattribute fest:

Vorgeschlagene Einstellungen: unterteilt in „Zustimmen“, „Nicht zustimmen“ und „Neutral“. „Zustimmen“ oder „Nicht zustimmen“ ist eine Antwort, die das LLM unterstützt oder ablehnt; Neutrale Vorschläge liefern lediglich zusätzliche relevante Informationen.
Genauigkeitskennzeichnung: Die dem Feedback-Vorschlag beigefügte Genauigkeitskennzeichnung reicht von 50 % (zufälliger Grad) bis 100 % (absolut zuverlässig), mit Schritten von 10 %.
Informationspräsentationsmethode: Präsentieren Sie dem antwortenden LLM die Vorschläge in einem klaren und standardisierten Format, um sicherzustellen, dass das Modell den Inhalt der Vorschläge genau lesen und verstehen kann und Entscheidungsverzerrungen durch schlechte Informationskommunikation vermieden werden.

Die Schlüsselvariable im Experiment besteht darin, zu steuern, ob der antwortende LLM für die ursprüngliche Antwort sichtbar ist.

Die Forscher stellten zwei Bedingungen auf: Anzeige der ersten Antwort und Ausblenden der ersten Antwort, und beobachteten die endgültigen Entscheidungsergebnisse von LLM in den beiden Situationen.

Experimentelle Ergebnisse zeigen, dass LLM, wenn es seine ursprüngliche Antwort sehen kann, dazu neigt, seine Antwort nicht zu ändern.

Dies ähnelt in gewisser Weise der menschlichen Entscheidungsfindung, das heißt, sobald eine Entscheidung getroffen wurde, behält man unbewusst seinen eigenen Standpunkt bei und wird ihn nicht so leicht ändern, selbst wenn man andere Informationen erhält.

Wenn jedoch die ursprüngliche Antwort ausgeblendet wird, steigt die Wahrscheinlichkeit, dass LLM die Antwort ändert.

Die Modelle weisen eine Überbetonung von Gegenvorschlägen auf und ihre Sensitivität liegt weit außerhalb des vernünftigen Bereichs. Selbst wenn die Einwände falsch sind, werden sie „an sich selbst zweifeln“, was letztendlich dazu führt, dass die ursprünglich richtige Ausgangsantwort leicht aufgegeben wird.

Dies weicht etwas von der menschlichen Wahrnehmung ab. Informationen, die „auf den ersten Blick gefälscht“ sind, lassen Menschen in der Regel nicht verwirren.

Man kann sagen, dass große Modelle in der Regel sehr selbstbewusst mit dem Speichermechanismus umgehen.

Aber ohne einen Gedächtnismechanismus kann es bei Modellen zu „Mangel an Selbstvertrauen“ kommen und sie sind nicht in der Lage, wie Menschen an ihrer eigenen Meinung festzuhalten.

Warum haben große Models „weiche Ohren“?

Aufgrund dieses experimentellen Ergebnisses gehen die Forscher davon aus, dass es mehrere Gründe für den Ausschlag des großen Modells geben könnte.

TrainingsniveauBeispielsweise führt das verstärkende Lernen aus menschlichem Feedback (RLHF) dazu, dass das Modell übermäßig auf externe Eingaben eingeht und tendenziell übermäßig empfindlich auf gegensätzliche Informationen reagiert, was jedoch an einer unabhängigen Beurteilung der Zuverlässigkeit der Informationen mangelt.

in der EntscheidungslogikDie Antwort des Modells basiert nicht auf logischen Überlegungen, sondern auf dem statistischen Mustervergleich umfangreicher Texte.Hochfrequenzkorrelationen zwischen Einspruchssignalen und korrigierten AntwortenDies macht sie anfällig für oberflächliche Einwände und ihre Unfähigkeit, selbst zu überprüfen, ob die ursprüngliche Antwort richtig ist.

In Bezug auf den SpeichermechanismusWenn die anfängliche Antwort sichtbar ist, wird die Pfadabhängigkeit die „Sturheit“ verstärken, und wenn die anfängliche Antwort verborgen ist, verliert das große Modell seinen Ankerpunkt und lässt die gegensätzlichen Vorschläge zum dominanten Signal werden, was dazu führt, dass sie leicht erschüttert werden.

Zusammenfassend lässt sich sagen, dass die „weichen Ohren“ großer Sprachmodelle das Ergebnis einer übermäßigen Rücksichtnahme auf externes Feedback während des Trainings, der Abhängigkeit von Übereinstimmungsmustern anstelle von logischem Denken bei der Entscheidungsfindung und des Mangels an Unterstützung für tiefes Denken im Gedächtnismechanismus sind.

Diese Eigenschaft kann dazu führen, dass man leicht durch widersprüchliche Informationen (sogar durch Fehler) gestört wird, die später in mehreren Gesprächsrunden auftauchen und letztendlich von der richtigen Schlussfolgerung abweichen.

Es scheint, dass wir beim Einsatz von LLM auf Strategien achten müssen ~

Papieradresse: https://www.arxiv.org/abs/2507.03120

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under- Pressure-drohen-multi-turn-ai-systems/