Der Leiter der Abteilung für Sicherheit im Bereich der psychischen Gesundheit bei OpenAI wechselt zu Anthropic Alignment team

Eines der umstrittensten Themen von OpenAI im vergangenen Jahr war, wie genau Modelle reagieren sollten, wenn Chatbot-Benutzer in Gesprächen Anzeichen von psychischen Problemen zeigen, und jetzt ist Andrea Vallone, Leiterin der Sicherheitsforschung in diesem Bereich, zu Anthropic gewechselt.

Vallone hatte zuvor auf LinkedIn gepostet, dass es für die Forschung, für die sie im vergangenen Jahr bei OpenAI verantwortlich war, fast „keine bestehenden Präzedenzfälle“ gab, denen man folgen konnte. Die Kernfrage lautet: Wie sollte das Modell reagieren, wenn es mit emotionaler Überabhängigkeit bei Benutzern oder frühen Anzeichen einer psychischen Krise konfrontiert wird? Sie arbeitete drei Jahre lang bei OpenAI, wo sie das Forschungsteam „Modellpolitik“ gründete und leitete, um an der Bereitstellung von GPT-4 und dem Inferenzmodell der nächsten Generation GPT-5 zu arbeiten, und beteiligte sich an der Entwicklung verschiedener branchenüblicher Sicherheitstrainingsmethoden, einschließlich „regelbasierter Belohnungen“.

Heute ist Vallone dem Alignment-Team von Anthropic beigetreten, dessen Aufgabe es ist, die erheblichen Risiken zu identifizieren und zu verstehen, die große Modelle mit sich bringen können, und Wege zu finden, mit ihnen umzugehen. Sie wird an Jan Leike berichten – den ehemaligen Leiter der Sicherheitsforschung bei OpenAI, der das Unternehmen im Mai 2024 verließ, weil er befürchtete, dass die „Sicherheitskultur und -prozesse von OpenAI einem glänzenden Produkt gewichen seien“, bevor er zu Anthropic wechselte.

Im vergangenen Jahr haben führende KI-Startups weiterhin öffentliche Kontroversen über die mit KI-Chatbots verbundenen Risiken und die psychische Gesundheit der Benutzer ausgelöst. Bei einigen Nutzern haben sich ihre psychischen Schwierigkeiten nach langen Gesprächen mit Chatbots noch verschärft, und ihre Sicherheitsvorkehrungen sind bei langen Gesprächen nach und nach zusammengebrochen. Es kam sogar zu extremen Vorfällen, etwa zum Selbstmord von Teenagern und zum Mord von Erwachsenen, nachdem sie sich dem Tool „anvertraut“ hatten. Mehrere Fälle haben Familien dazu veranlasst, Klagen wegen widerrechtlicher Tötung gegen verbundene Unternehmen einzureichen. Ein Unterausschuss des US-Senats hielt ebenfalls Anhörungen zu diesem Thema ab und forderte, die Rolle und Verantwortlichkeiten von Chatbots bei solchen Vorfällen zu untersuchen, und Sicherheitsforscher wurden gebeten, leistungsfähigere Lösungen zu entwickeln.

Sam Bowman, einer der Leiter des Alignment-Teams von Anthropic, sagte auf LinkedIn, er sei „stolz darauf, wie ernst Anthropic dieses Thema nimmt“ und dass das Unternehmen intensiv darüber nachdenke, „wie sich KI-Systeme verhalten sollten“. Vallone schrieb am Donnerstag in einem neuen LinkedIn-Beitrag, dass sie „sich darauf freut, ihre Forschung bei Anthropic fortzusetzen und sich darauf zu konzentrieren, Claudes Verhalten in neuen Situationen durch Ausrichtung und Feinabstimmung zu formen.“