Harvard-Notfall-Triage-Studie beweist, dass KI-Diagnose besser ist als echte Doctors

In medizinischen Dramen, von George Clooney in „ER“ bis Noah Wyle in „ER“, werden Notärzte seit langem als Helden dargestellt, die Leben retten. Eine aktuelle Studie aus Harvard zeigt jedoch, dass Systeme künstlicher Intelligenz in Notfall-Triage-Situationen mit hohem Druck menschliche Ärzte in der diagnostischen Genauigkeit übertroffen haben. Dieses Ergebnis bezeichnen Forscher als einen technologischen Wendepunkt, der die Medizin „umgestalten“ werde.

Die in der Fachzeitschrift „Science“ veröffentlichte und von einem Team der Harvard Medical School geleitete Studie ist nach Ansicht unabhängiger Experten ein „echter Fortschritt“ in den Fähigkeiten der KI zum klinischen Denken, der über das bloße Bestehen von Prüfungen oder das Lösen künstlich konstruierter Testfragen hinausgeht. Die Studie verwendete ein groß angelegtes experimentelles Design, um Hunderte von Ärzten mit einem großen Sprachmodell (LLM) zu vergleichen, wobei der Schwerpunkt auf der Bewertung von Leistungsunterschieden in Schlüsselszenarien wie der Notfalltriage und der langfristigen Behandlungsplanung lag.

In einem der Kernexperimente wählte das Forschungsteam 76 echte Patienten aus, die die Notaufnahme eines Krankenhauses in Boston aufsuchten. Dem KI-System und einem Team aus zwei menschlichen Ärzten wurden exakt die gleichen standardmäßigen elektronischen Krankenakten zugeführt, darunter Vitaldaten, demografische Informationen und eine kurze Beschreibung des Grundes des Besuchs durch die Krankenschwester. Angesichts dieser begrenzten Informationen zur Erstellung einer Erstdiagnose stellte die KI in 67 % der Fälle eine genaue oder sehr genaue Diagnose, während menschliche Ärzte nur in 50–55 % der Fälle richtig lagen.

Untersuchungen zeigen, dass die Vorteile der KI besonders in Triage-Szenarien zum Tragen kommen, in denen die Informationen äußerst begrenzt sind und ein schnelles Urteilsvermögen erforderlich ist. Als der KI und den Ärzten detailliertere klinische Informationen zur Verfügung gestellt wurden, verbesserte sich die diagnostische Genauigkeit der KI (unter Verwendung des o1-Inferenzmodells von OpenAI) weiter auf 82 %, während die Genauigkeit menschlicher Experten zwischen 70 % und 79 % lag, obwohl dieser Unterschied statistisch nicht signifikant war.

Neben der Notfall-Triage hat die KI den Ärzten auch bei der Formulierung langfristiger Behandlungspläne eine überlegene Leistung bewiesen. In einer anderen Studie bat das Forschungsteam die KI, fünf klinische Fälle mit 46 Ärzten zu überprüfen, wobei die Aufgaben von der Entwicklung von Antibiotika-Therapien bis hin zur Planung langfristiger Managementpläne wie Sterbebegleitungsprozesse reichten. Die Ergebnisse zeigten, dass die durch KI bereitgestellten Behandlungsoptionen mit einem Wert von 89 % deutlich besser abschnitten, während Ärzte, die sich auf traditionelle Quellen wie Suchmaschinen verließen, nur 34 % erreichten.

Dennoch betonten die Forscher, dass es noch lange nicht an der Zeit sei, „die Entlassung von Notärzten anzukündigen“. Diese Studie verglich die diagnostischen Fähigkeiten von KI und Menschen nur auf der Ebene von Krankenaktendaten, die in Textform umgewandelt werden können, und berücksichtigte nicht viele Signale, die in realen klinischen Situationen von entscheidender Bedeutung sind, wie z. B. Schmerzausdrücke von Patienten, emotionale Zustände, Körpersprache und sogar nicht-textuelle Informationen wie Interaktionen mit Familienmitgliedern. Mit anderen Worten: In dieser Studie war die KI eher ein „Arzt hinter den Kulissen“, der auf der Grundlage von Papierinformationen eine zweite Meinung abgab.

„Ich glaube nicht, dass unsere Ergebnisse bedeuten, dass KI Ärzte ersetzen wird“, sagte Arjun Manrai, einer der Erstautoren der Studie und Direktor des AI Lab an der Harvard Medical School. „Ich denke, das bedeutet, dass wir Zeugen eines tiefgreifenden technologischen Wandels sind, der das gesamte Gesundheitssystem umgestalten wird.“ Mitautor Adam Rodman, Kliniker am Beth Israel Deaconess Medical Center in Boston, bezeichnete große Sprachmodelle als „eine der einflussreichsten Technologien der letzten Jahrzehnte“. Er prognostizierte, dass KI in den nächsten zehn Jahren Ärzte nicht ersetzen, sondern ein neues „dreigliedriges Versorgungsmodell“ mit Ärzten und Patienten bilden werde – „Ärzte, Patienten und Systeme der künstlichen Intelligenz“.

Die Studie präsentierte auch einen repräsentativen klinischen Fall: Ein Patient kam mit Lungenblutgerinnseln und sich verschlimmernden Symptomen ins Krankenhaus. Humanmediziner gingen zunächst davon aus, dass die Behandlung mit gerinnungshemmenden Medikamenten fehlschlug und zu einem Fortschreiten der Krankheit führte; Nach dem Lesen der Krankengeschichte bemerkte die KI jedoch einen entscheidenden Punkt: Der Patient litt an Lupus erythematodes, einer Autoimmunerkrankung, die auch Lungenentzündungen verursachen kann. Bei weiterer Prüfung erwies sich die Schlussfolgerung der KI als richtig.

Die klinische Anwendung von KI bleibt nicht im Laborstadium. Eine Vielzahl von Ärzten setzt es bereits in der Praxis ein. Laut einer aktuellen Studie der American Medical Association hat fast jeder fünfte US-Ärzte KI-gestützte Tools in seine Diagnoseverfahren eingeführt. Im Vereinigten Königreich ergab eine neue Umfrage des Royal College of Physicians, dass 16 % der Ärzte diese Technologie täglich nutzen, weitere 15 % nutzen sie einmal oder mehrmals pro Woche, wobei „klinische Entscheidungsunterstützung“ eines der häufigsten Einsatzszenarien ist.

Allerdings äußerten britische Ärzte bei der Befragung auch große Wachsamkeit gegenüber KI, insbesondere Bedenken hinsichtlich des Risikos einer KI-Fehldiagnose und Haftungsfragen. Obwohl Milliarden von Dollar in medizinische KI-Startups auf der ganzen Welt geflossen sind, besteht immer noch eine dringende institutionelle Lücke, die geschlossen werden muss, wenn die KI fehlschlägt. „Derzeit gibt es keinen formellen Rahmen für die Rechenschaftspflicht“, betonte Rodman und betonte, dass Patienten „letztendlich von Menschen geführt, begleitet und erklärt werden wollen“, wenn sie mit Entscheidungen über Leben und Tod oder komplexen Behandlungsplänen konfrontiert werden.

Professor Ewen Harrison, Co-Direktor des Centre for Medical Informatics an der University of Edinburgh, sagte, die Forschung sei bedeutsam, weil sie zeige, „bei diesen Systemen geht es nicht mehr nur darum, medizinische Untersuchungen zu bestehen oder auf künstlich konstruierte Testfragen zu antworten“. Seiner Ansicht nach wird KI nach und nach zu einem nützlichen „Zweitmeinungsinstrument“ für Kliniker, insbesondere in Szenarien, in denen es darum geht, potenzielle Diagnosen umfassend zu klären und wichtige Krankheitsursachen nicht zu übersehen.

Gleichzeitig erinnerte Wei Xing, Assistenzprofessor an der School of Mathematics and Physical Sciences der University of Sheffield im Vereinigten Königreich, auch daran, dass einige Ergebnisse der Studie zeigen, dass Ärzte, wenn sie mit KI zusammenarbeiten, sich möglicherweise unbewusst auf Schlussfolgerungen der KI verlassen und das unabhängige Denken schwächen. „Diese Tendenz wird wahrscheinlich noch zunehmen, da KI routinemäßig im klinischen Umfeld eingesetzt wird“, bemerkte er. Xing Wei betonte auch, dass die Studie nicht vollständig offenlegte, bei welchen Patiententypen die KI schlechter abschneidet, etwa ob es schwieriger ist, ältere Patienten oder Patienten, die kein Englisch als Muttersprache sprechen, zu diagnostizieren. Dies sind Probleme, die bei der Bewertung der Sicherheit nicht ignoriert werden dürfen.

Obwohl die Ergebnisse der Harvard-Studie ermutigend sind, beweisen sie weder, dass KI sicher genug ist, um routinemäßig und unabhängig in der klinischen Diagnose und Behandlung eingesetzt zu werden, noch bedeutet dies, dass die Öffentlichkeit auf kostenlose KI-Tools als Ersatz für professionellen medizinischen Rat zurückgreifen sollte. In absehbarer Zukunft wird KI eher als leistungsstarkes „intelligentes Stethoskop“ und „zweites Gehirn“ eingesetzt und in das vom Menschen gesteuerte medizinische System eingebettet, um eine genauere und effizientere Diagnose und Behandlung zu fördern und gleichzeitig neue Fragen zu Verantwortung, Ethik und Vertrauen vor die Gesellschaft zu stellen.