Proteine ​​sind natürliche Moleküle, die wichtige Zellfunktionen im Körper erfüllen und Bausteine ​​aller Krankheiten sind. Die Charakterisierung von Proteinen kann Krankheitsmechanismen aufdecken, einschließlich Möglichkeiten, Krankheiten zu verlangsamen oder umzukehren, während die Herstellung von Proteinen zur Entwicklung völlig neuer Medikamente und Therapien führen kann.

Zugang:

Offizielle Mall-Homepage von Microsoft China

Allerdings ist der derzeitige Prozess des Proteindesigns im Labor aus rechnerischer und personeller Sicht aufwendig. Dazu muss eine Proteinstruktur entwickelt werden, die eine bestimmte Aufgabe im Körper erfüllt, und dann eine Proteinsequenz (die Sequenz der Aminosäuren, aus denen ein Protein besteht) gefunden werden, die sich in diese Struktur „falten“ kann. (Proteine ​​müssen sich korrekt in eine dreidimensionale Form falten, um ihre beabsichtigte Funktion zu erfüllen.)

Es muss nicht so kompliziert sein.

Diese Woche hat Microsoft EvoDiff auf den Markt gebracht, ein allgemeines Framework, das nach Angaben des Unternehmens „hochpräzise“ und „vielfältige“ Proteine ​​basierend auf Proteinsequenzen generieren kann. Im Gegensatz zu anderen Frameworks zur Proteingenerierung benötigt EvoDiff keine Strukturinformationen des Zielproteins, wodurch der normalerweise aufwändigste Schritt entfällt.

Kevin Yang, ein leitender Forscher bei Microsoft, sagte, dass EvoDiff, nachdem es als Open-Source-Lösung verfügbar ist, zur Herstellung von Enzymen für neue Behandlungen und Methoden zur Arzneimittelverabreichung sowie für neue Enzyme für industrielle chemische Reaktionen verwendet werden kann.

„Unsere Vision ist, dass EvoDiff die Möglichkeiten des Protein-Engineerings über das Struktur-Funktions-Paradigma hinaus hin zu programmierbarem, sequenzorientiertem Design erweitern wird“, sagte Yang, einer der Mitschöpfer von EvoDiff, in einem E-Mail-Interview mit TechCrunch. „Mit EvoDiff haben wir gezeigt, dass wir möglicherweise nicht wirklich eine Struktur benötigen, sondern vielmehr ‚die Proteinsequenz ist alles, was Sie brauchen‘, um kontrollierbar neue Proteine ​​zu entwerfen.“

Das Herzstück des EvoDiff-Frameworks ist ein 640-Parameter-Modell, das auf Daten aller verschiedenen Spezies und Funktionsklassen von Proteinen trainiert wird. (Parameter sind das, was das KI-Modell aus den Trainingsdaten lernt und definieren im Wesentlichen die Fähigkeit des Modells, mit dem Problem umzugehen – in diesem Fall die Generierung von Proteinen.) Die Daten zum Training des Modells stammen aus dem OpenFold-Datensatz der Sequenzausrichtungen und aus UniRef50, einem Teilsatz des UniProt-Datensatzes, einer Datenbank mit Proteinsequenzen und Funktionsinformationen, die vom UniProt-Konsortium verwaltet wird.

EvoDiff ist ein Diffusionsmodell, dessen Struktur vielen modernen Bilderzeugungsmodellen wie Stable Diffusion und DALL-E2 ähnelt. EvoDiff lernt, das Rauschen eines Ausgangsproteins, das fast ausschließlich aus Rauschen besteht, schrittweise zu subtrahieren, sodass es sich langsam und Schritt für Schritt der Proteinsequenz nähern kann.

Der Prozess, durch den EvoDiff Proteine ​​erzeugt.

Diffusionsmodelle werden zunehmend in Bereichen eingesetzt, die über die Bilderzeugung hinausgehen, vom Entwurf neuartiger Proteine ​​(wie EvoDiff) über das Komponieren von Musik bis hin zur Sprachsynthese.

„Wenn es eine Erkenntnis [von EvoDiff] gibt, dann ist es meiner Meinung nach, dass wir Proteine ​​aus Sequenzen generieren können und sollten, weil wir Vielseitigkeit, Skalierbarkeit und Modularität ermöglichen“, sagte Ava Amini, eine weitere EvoDiff-Mitwirkende und leitende Forscherin bei Microsoft, per E-Mail. „Unser Diffusionsgerüst gibt uns die Möglichkeit dazu und ermöglicht es uns auch zu steuern, wie diese Proteine ​​entwickelt werden, um bestimmte funktionelle Ziele zu erreichen.“

Laut Amini schafft EvoDiff nicht nur neue Proteine, sondern füllt auch „Lücken“ in bestehenden Proteindesigns. Wenn beispielsweise ein bestimmter Teil eines Proteins an ein anderes Protein bindet, kann das Modell eine Sequenz der Aminosäuren des Proteins um diesen Teil herum generieren, die eine Reihe von Kriterien erfüllt.

Da EvoDiff Proteine ​​im „Sequenzraum“ und nicht in der Proteinstruktur entwirft, kann es auch „ungeordnete Proteine“ synthetisieren, die sich letztendlich nicht in ihre endgültige dreidimensionale Struktur falten. Wie normal funktionierende Proteine ​​spielen auch gestörte Proteine ​​eine wichtige Rolle in der Biologie und bei Krankheiten, beispielsweise indem sie die Aktivität anderer Proteine ​​verstärken oder verringern.

Es ist wichtig darauf hinzuweisen, dass die Forschung hinter EvoDiff keinem Peer-Review unterzogen wurde – zumindest noch nicht. Sarah AlAMDari, eine an dem Projekt beteiligte Microsoft-Datenwissenschaftlerin, gab zu, dass „noch viel Skalierungsarbeit zu leisten ist“, bevor das Framework kommerziell genutzt werden kann.

„Dies ist nur ein Modell mit 640 Millionen Parametern, und wenn wir es auf Milliarden von Parametern skalieren, könnten wir eine Verbesserung der Qualität der Generierung feststellen“, sagte Alamdari per E-Mail. „Während wir einige grobkörnige Strategien demonstriert haben, um eine feinere Kontrolle zu erreichen, möchten wir, dass EvoDiff von Text, chemischen Informationen oder anderen Mitteln abhängt, um die gewünschten Merkmale zu spezifizieren.“

Als nächstes plant das EvoDiff-Team, das Modell an im Labor erzeugten Proteinen zu testen, um zu sehen, ob sie funktionieren. Wenn es funktioniert, werden sie mit der Arbeit am Framework der nächsten Generation beginnen.