Wissenschaftler der Universitäten Manchester und Oxford haben ein Framework für künstliche Intelligenz entwickelt, das neue und besorgniserregende COVID-19-Varianten identifizieren und verfolgen und bei der Bewältigung anderer Infektionen in der Zukunft helfen kann.Das Framework kombiniert Techniken zur Dimensionsreduktion mit einem neuen interpretierbaren Clustering-Algorithmus namens CLASSIX, der von Mathematikern der Universität Manchester entwickelt wurde. Auf diese Weise können virale Genomgruppen, die in Zukunft Risiken darstellen könnten, aus umfangreichen Daten schnell identifiziert werden.
Die diese Woche in den Proceedings of the National Academy of Sciences (PNAS) veröffentlichten Forschungsergebnisse könnten traditionelle Methoden zur Verfolgung der Virusentwicklung unterstützen, wie etwa die phylogenetische Analyse, die derzeit eine umfangreiche manuelle Kuratierung erfordert.
Roberto Cahuantzi, Forscher an der University of Manchester, Erstautor und korrespondierender Autor des Papiers, sagte: „Seit dem Aufkommen von COVID-19 haben wir mehrere Wellen neuer Varianten, erhöhte Übertragbarkeit, Umgehung der Immunantwort und erhöhte Krankheitsschwere erlebt. Wissenschaftler verstärken jetzt unsere Bemühungen, diese neuen besorgniserregenden Varianten wie Alpha, Delta und Omega in ihren frühesten Stadien zu bekämpfen. Wenn wir einen schnellen und effektiven Weg finden, aggressiver zu reagieren, wie zum Beispiel die gezielte Entwicklung.“ Durch Impfungen ist es möglich, Varianten zu eliminieren, bevor sie überhaupt entstehen.“
Wie viele andere RNA-Viren weist auch COVID-19 eine hohe Mutationsrate und eine kurze Zeit zwischen den Generationen auf, was bedeutet, dass es sich extrem schnell entwickeln kann. Das bedeutet, dass die Identifizierung neuer Stämme, die in Zukunft Probleme verursachen könnten, einen enormen Aufwand erfordern wird.
Derzeit sind fast 16 Millionen Sequenzen in der GISAID-Datenbank (Global Initiative for Sharing All Influenza Data) verfügbar, die Genomdaten für Influenzaviren bereitstellt.
Die Kartierung der Evolution und Geschichte aller COVID-19-Genome aus diesen Daten erfordert derzeit einen erheblichen Aufwand an Computer- und menschlicher Zeit.
Die beschriebene Methode ermöglicht die Automatisierung solcher Aufgaben. Die Forscher brauchten nur ein bis zwei Tage, um 5,7 Millionen Sequenzen mit hoher Reichweite mit einem modernen Standard-Laptop zu verarbeiten. etwas, das mit bestehenden Methoden nicht möglich ist, und der geringere Ressourcenbedarf gab mehr Forschern die Möglichkeit, relevante Krankheitserregerstämme zu identifizieren.
Thomas House, Professor für Mathematik an der Universität Manchester, sagte: „Die beispiellose Menge an genetischen Daten, die während der Pandemie produziert wurden, erfordert, dass wir unsere Methoden verbessern und sie gründlich analysieren. Die Daten wachsen immer noch schnell, aber wenn sich die Vorteile der Zusammenstellung dieser Daten nicht zeigen, werden diese Daten möglicherweise entfernt oder gelöscht.“
„Wir wissen, dass die Zeit menschlicher Experten begrenzt ist. Deshalb sollte unser Ansatz die Arbeit von Menschen nicht vollständig ersetzen, sondern mit ihnen zusammenarbeiten, um die Arbeit schneller abzuschließen und unsere Experten für die Arbeit an anderen wichtigen Entwicklungsarbeiten zu entlasten.“
Bei der vorgeschlagenen Methode wird die genetische Sequenz des COVID-19-Virus in kleinere „Wörter“ gezählt, die durch Zahlen dargestellt werden (sogenannte 3-mere). Anschließend werden Techniken des maschinellen Lernens verwendet, um ähnliche Sequenzen basierend auf Wortmustern zu gruppieren.
Stefan Güttel, Professor für Angewandte Mathematik an der Universität Manchester, sagte: „Der von uns entwickelte Clustering-Algorithmus CLASSIX ist viel weniger rechenintensiv als herkömmliche Methoden und vollständig interpretierbar, das heißt, er liefert sowohl textliche als auch visuelle Erklärungen der berechneten Cluster.“
Roberto Cahuantzi fügte hinzu: „Unsere Analyse ist ein Proof-of-Concept, der den potenziellen Einsatz maschineller Lernmethoden als Frühwarninstrument für die Früherkennung aufkommender Hauptvarianten zeigt, ohne sich auf generierte Phylogenien zu verlassen. Während die Phylogenie nach wie vor der „Goldstandard“ für das Verständnis viraler Abstammung bleibt, sind diese maschinellen Lernmethoden in der Lage, bei geringem Rechenaufwand um Größenordnungen mehr Sequenzen zu berücksichtigen als aktuelle phylogenetische Methoden.“
Zusammengestellt von: ScitechDaily