Der Kampf zwischen Radiologen und Maschinen: Künstliche Intelligenz ist bei der Erkennung von Lungenerkrankungen auf Röntgenaufnahmen des Brustkorbs immer noch überlegen

Eine kürzlich in der Fachzeitschrift Radiology veröffentlichte Studie ergab, dass Radiologen anhand von mehr als 2.000 Röntgenaufnahmen des Brustkorbs drei häufige Lungenerkrankungen besser identifizieren oder ausschließen konnten als Werkzeuge der künstlichen Intelligenz. Laut einer Studie in der Fachzeitschrift Radiology haben Radiologen die künstliche Intelligenz bei der genauen Erkennung von drei häufigen Lungenerkrankungen anhand von Röntgenaufnahmen des Brustkorbs übertroffen. Das KI-Tool war zwar empfindlich, erzeugte jedoch mehr Fehlalarme, was es für die autonome Diagnose weniger zuverlässig, aber für Zweitmeinungen nützlich machte.

Laut einer am 26. September in Radiology, der Zeitschrift der Radiological Society of North America (RSNA), veröffentlichten Studie mit mehr als 2.000 Röntgenaufnahmen des Brustkorbs übertrafen Radiologen die künstliche Intelligenz bei der genauen Identifizierung des Vorhandenseins oder Nichtvorhandenseins von drei häufigen Lungenerkrankungen.

Die Rolle der Radiographie

„Röntgenaufnahmen des Brustkorbs sind ein gängiges Diagnoseinstrument, aber die korrekte Interpretation der Ergebnisse erfordert umfangreiche Ausbildung und Erfahrung“, sagte der leitende Forscher Dr. Louis L. Plesner, Assistenzarzt und Doktorand in der Abteilung für Radiologie am Herlev und Gentofte Krankenhaus in Kopenhagen, Dänemark.

Obwohl es auf dem Markt von der FDA zugelassene KI-Tools zur Unterstützung von Radiologen gibt, steckt die klinische Anwendung von Deep-Learning-basierten KI-Tools für die radiologische Diagnose noch in den Kinderschuhen. „Während immer mehr künstliche Intelligenz-Tools für den Einsatz in der Radiologie zugelassen werden, besteht ein ungedeckter Bedarf, diese Tools in realen klinischen Szenarien weiter zu testen“, sagte Dr. Plesner. „KI-Tools können Radiologen bei der Interpretation von Röntgenaufnahmen des Brustkorbs unterstützen, ihre tatsächliche diagnostische Genauigkeit bleibt jedoch unklar.“

(A) Posteroanteriores Röntgenbild des Brustkorbs eines 71-jährigen männlichen Patienten, der wegen fortschreitender Dyspnoe mit beidseitiger Fibrose zur radiologischen Untersuchung überwiesen wurde (Pfeil B). Die posteroanteriore Röntgenaufnahme des Brustkorbs einer 31-jährigen Patientin, die wegen eines seit einem Monat bestehenden Hustens zur radiologischen Untersuchung überwiesen wurde, zeigt eine leichte Luftspalttrübung am rechten Herzrand (Pfeil). (C) Das Röntgenbild des vorderen Brustkorbs eines 78-jährigen männlichen Patienten, der nach der Platzierung eines Zentralvenenkatheters überwiesen wurde, zeigt eine rechte Hautfalte (Pfeil). (D) Die posteroanteriore Röntgenaufnahme des Brustkorbs eines 78-jährigen männlichen Patienten, der zum Ausschluss eines Pneumothorax überwiesen wurde, zeigt einen sehr subtilen Pneumothorax (Pfeil) am rechten Apex. (E) Röntgenaufnahme der hinteren anteroposterioren Brust, die eine chronische Abrundung des costophrenischen Winkels (Pfeil) bei einem 72-jährigen männlichen Patienten zeigt, der ohne besonderen Grund zur radiologischen Untersuchung überwiesen wurde. (F) Das Röntgenbild des vorderen Brustkorbs einer 76-jährigen Patientin, die wegen Verdachts auf Stauung und/oder Lungenentzündung überwiesen wurde, zeigt einen sehr kleinen Erguss auf der linken Seite des Brustkorbs (Pfeil), der von allen drei KI-Tools zur Analyse von Pleuraergüssen auf Röntgenaufnahmen des vorderen Brustkorbs übersehen wurde. Quelle: Radiological Society of North America

Forschungsergebnisse

Dr. Plesner und das Forschungsteam verglichen die Leistung von vier kommerziell erhältlichen Instrumenten der künstlichen Intelligenz und 72 Radiologen bei der Interpretation von 2.040 Röntgenaufnahmen des Brustkorbs von Erwachsenen, die im Jahr 2020 über einen Zeitraum von zwei Jahren in vier Krankenhäusern in Dänemark nacheinander aufgenommen wurden. Das Durchschnittsalter der Patientenpopulation betrug 72 Jahre. Von den Röntgenaufnahmen des Brustkorbs hatten 669 (32,8 %) mindestens einen Zielbefund.

Röntgenaufnahmen des Brustkorbs wurden auf drei häufige Befunde untersucht: Luftzellkrankheit (ein Muster von Röntgenaufnahmen des Brustkorbs, das durch Dinge wie Lungenentzündung oder Lungenödem verursacht wird), Pneumothorax (Lungenkollaps) und Pleuraerguss (Ansammlung von Wasser um die Lunge).

Das KI-Tool hatte eine Sensitivität von 72 % bis 91 % für Atemwegserkrankungen, 63 % bis 90 % für Pneumothorax und 62 % bis 95 % für Pleuraerguss.

„KI-Tools zeigten eine mittlere bis hohe Empfindlichkeit, vergleichbar mit Radiologen bei der Erkennung von Luftraumerkrankungen, Pneumothorax und Pleuraerguss auf Röntgenaufnahmen des Brustkorbs“, sagte er. „Allerdings erzielten sie mehr falsch-positive Ergebnisse (Vorhersagen einer Krankheit, wenn diese nicht vorlag) als Radiologen, und ihre Leistung ließ nach, wenn mehrere Befunde und kleinere Ziele vorlagen.“

Vergleich der vorhergesagten Werte

Für Pneumothorax lag der positive Vorhersagewert des KI-Systems – die Wahrscheinlichkeit, dass ein Patient, der positiv getestet wurde, tatsächlich an der Krankheit litt – zwischen 56 % und 86 %, verglichen mit 96 % bei Radiologen.

„KI schnitt bei der Erkennung von Pneumothorax-Erkrankungen am schlechtesten ab, mit einem positiven Vorhersagewert zwischen 40 und 50 Prozent“, sagte Dr. Plesner. „In dieser schwierigen Stichprobe älterer Patienten sagte die KI in 5 bis 6 von 10 Fällen eine nicht vorhandene Luftspalterkrankung voraus. Bei dieser Geschwindigkeit könnte ein KI-System nicht alleine arbeiten.“

Das Ziel von Radiologen besteht darin, ein Gleichgewicht zwischen der Fähigkeit, Krankheiten zu erkennen und auszuschließen, zu finden, um sowohl das Übersehen einer signifikanten Krankheit als auch eine Überdiagnose zu vermeiden. „KI-Systeme scheinen sehr gut darin zu sein, Krankheiten zu erkennen, aber nicht so gut wie Radiologen, wenn es darum geht, das Fehlen einer Krankheit festzustellen, insbesondere wenn Röntgenaufnahmen des Brustkorbs komplexer sind“, sagte er. „Zu viele falsch positive Diagnosen können zu unnötiger Bildgebung, Strahlenbelastung und erhöhten Kosten führen.“

In den meisten Studien wird in der Regel die Fähigkeit der KI bewertet, das Vorhandensein oder Nichtvorhandensein einer einzelnen Krankheit zu bestimmen, was viel einfacher ist als in realen Situationen, in denen Patienten häufig an mehreren Krankheiten leiden. In vielen früheren Studien, in denen behauptet wurde, KI sei Radiologen überlegen, betrachteten die Radiologen die Bilder nur, ohne Kenntnis der Krankengeschichte des Patienten und früherer Bildgebungsstudien. In der täglichen Praxis setzt sich die Interpretation einer bildgebenden Untersuchung durch einen Radiologen aus diesen drei Datenpunkten zusammen. Die Forscher spekulieren, dass die nächste Generation von KI-Tools noch leistungsfähiger werden könnte, wenn sie auch diese Art der Synthese durchführen könnten, ein solches System existiert jedoch derzeit nicht.

„Unsere Forschung zeigt, dass Radiologen in realen Szenarien mit einer Vielzahl von Patienten im Allgemeinen die KI übertreffen“, sagte er. „Während KI-Systeme normale Röntgenaufnahmen des Brustkorbs effektiv identifizieren können, sollte KI Diagnosen nicht autonom stellen.“

Dr. Plesner stellte fest, dass diese Tools der künstlichen Intelligenz das Vertrauen von Radiologen in ihre Diagnose erhöhen können, indem sie einen zweiten Blick auf Röntgenaufnahmen des Brustkorbs werfen.