CSAIL des MIT stellt PFGM++ vor, ein Modell der künstlichen Intelligenz, das Diffusions- und Poisson-Prozesse kombiniert. Es erzeugt bemerkenswerte Bilder, indem es das Verhalten elektrischer Felder nachbildet, und stellt einen Fortschritt in der generativen künstlichen Intelligenz dar. Das von der Physik inspirierte neue generative Modell PFGM++ übertrifft Diffusionsmodelle bei der Bilderzeugung. Generative künstliche Intelligenz steht derzeit an der Schwelle zu einem heißen Thema und verspricht, eine Welt zu schaffen, in der sich einfache Verteilungen zu komplexen Mustern aus Bildern, Tönen oder Texten entwickeln und künstliche Intelligenz verblüffend real machen.
Während Forscher am Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT innovative Modelle der künstlichen Intelligenz zum Leben erwecken, ist der Bereich der Vorstellungskraft nicht mehr nur ein abstraktes Konzept. Ihre neue Technik integriert zwei scheinbar voneinander unabhängige physikalische Gesetze, die den bisher leistungsstärksten generativen Modellen zugrunde liegen: Diffusion (die typischerweise die zufällige Bewegung von Elementen erklärt, wie zum Beispiel Wärme, die einen Raum durchdringt, oder ein Gas, das sich in den Weltraum ausdehnt) und Poisson-Prozesse (die sich auf Prinzipien stützen, die die Aktivität elektrischer Ladungen steuern).
Diese harmonische Mischung ermöglicht es Ezoic, neue Bilder zu generieren und bestehende, hochmoderne Modelle zu übertreffen. Seit seiner Einführung hat das Poisson Flow Generative Model++ (PFGM++) potenzielle Anwendungen in Bereichen gefunden, die von der Antikörper- und RNA-Sequenzgenerierung bis hin zur Audioproduktion und Grafikgenerierung reichen.
Das Modell kann komplexe Muster erzeugen, beispielsweise realistische Bilder erstellen oder reale Prozesse nachahmen. PFGM++ baut auf dem PFGM des Teams auf, das das Ergebnis der letztjährigen Forschung war. PFGM lässt sich von einer mathematischen Gleichung namens „Poisson“-Gleichung inspirieren und wendet sie dann auf die Daten an, die das Modell zu lernen versucht. Dazu nutzte das Team einen cleveren Trick: Sie fügten dem „Raum“ des Modells eine zusätzliche Dimension hinzu, ähnlich wie beim Übergang von einer zweidimensionalen Skizze zu einem dreidimensionalen Modell. Diese zusätzliche Dimension bietet mehr Handlungsspielraum, stellt die Daten in einen größeren Kontext und hilft bei der Generierung neuer Stichproben, sich den Daten aus allen Richtungen zu nähern.
Jesse Thaler, theoretischer Teilchenphysiker am Center for Theoretical Physics am Nuclear Science Laboratory des MIT und Direktor des Institute for Artificial Intelligence and Fundamental Interactions (NSFAIIAIFI) der National Science Foundation, sagte: „PFGM++ ist ein Beispiel für die interdisziplinäre Zusammenarbeit zwischen Physikern und Informatikern, um den Fortschritt der künstlichen Intelligenz voranzutreiben. In den letzten Jahren haben generative Modelle auf der Grundlage künstlicher Intelligenz endlose Ergebnisse hervorgebracht, von fotorealistischen Bildern bis hin zu klarem Text.“ Die Ergebnisse sind beeindruckend. Einige der leistungsstärksten generativen Modelle basieren auf bewährten Konzepten der Physik, nämlich der Tatsache, dass es in Raum und Zeit zusätzliche Dimensionen gibt, und verwandeln sie in ein leistungsstarkes und robustes Werkzeug zur Generierung synthetischer und dennoch realer Datensätze.
Der grundlegende Mechanismus von PFGM ist nicht so kompliziert, wie es sich anhört. Die Forscher vergleichen die Datenpunkte mit winzigen Ladungen auf einer Ebene in einer dimensional erweiterten Welt. Diese Ladungen erzeugen ein „elektrisches Feld“, das die Feldlinien in eine zusätzliche Dimension nach oben verschiebt und so eine gleichmäßige Verteilung über eine riesige imaginäre Halbkugel erzeugt. Der Generierungsprozess gleicht einem Zurückspulen: Man beginnt mit einer Reihe von Ladungen, die gleichmäßig über eine Hemisphäre verteilt sind, und verfolgt ihren Fortschritt zurück zur Ebene entlang der elektrischen Feldlinien. Sie richten sich so aus, dass sie mit der Verteilung der Originaldaten übereinstimmen. Dieser interessante Prozess ermöglicht es neuronalen Modellen, elektrische Felder zu erlernen und neue Daten zu generieren, die mit den Originaldaten übereinstimmen.
Das PFGM++-Modell erweitert das elektrische Feld in PFGM auf ein komplexes hochdimensionales Gerüst. Wenn Sie diese Dimensionen weiter erweitern, geschieht etwas Unerwartetes: Das Modell ähnelt einer anderen wichtigen Klasse von Modellen, nämlich Diffusionsmodellen. Bei diesem Job geht es vor allem darum, die richtige Balance zu finden. PFGM-Modelle und Diffusionsmodelle liegen am entgegengesetzten Ende des Spektrums: Das eine ist leistungsstark, aber komplex in der Handhabung, das andere ist einfach, aber weniger robust. Das PFGM++-Modell findet die richtige Balance zwischen Robustheit und Benutzerfreundlichkeit. Diese Innovation ebnet den Weg für eine effizientere Generierung von Bildern und Mustern und markiert einen wichtigen Fortschritt für die Technologie. Zusätzlich zur einstellbaren Größe schlugen die Forscher auch eine neue Trainingsmethode vor, mit der elektrische Felder effizienter erlernt werden können.
Um diese Theorie in die Praxis umzusetzen, löste das Team ein Paar Differentialgleichungen, die die Bewegung dieser Ladungen in einem elektrischen Feld detailliert beschreiben. Sie bewerteten die Leistung anhand des Frechette Inception Distance (FID)-Scores, einer weithin akzeptierten Metrik zur Beurteilung der Qualität der von einem Modell erzeugten Bilder im Vergleich zu realen Bildern. PFGM++ weist außerdem eine höhere Fehlertoleranz und Robustheit gegenüber Schrittgrößen in Differentialgleichungen auf.
Zukünftig wollen sie bestimmte Aspekte des Modells verfeinern, insbesondere durch die Analyse des Schätzfehlerverhaltens neuronaler Netze, um systematisch „Sweet Spot“-Werte von D zu identifizieren, die auf bestimmte Daten, Architekturen und Aufgaben zugeschnitten sind. Sie planen auch, PFGM++ auf die moderne groß angelegte Text-zu-Bild-/Text-zu-Video-Generierung anzuwenden.
„Diffusionsmodelle sind zu einer wichtigen treibenden Kraft hinter der generativen KI-Revolution geworden“, sagte Yang Song, Forscher bei OpenAI. „PFGM++ bietet eine leistungsstarke Verallgemeinerung von Diffusionsmodellen und ermöglicht es Benutzern, qualitativ hochwertigere Bilder zu erzeugen, indem die Robustheit der Bilderzeugung gegenüber Störungen und Lernfehlern verbessert wird. Darüber hinaus entdeckte PFGM++ überraschende Zusammenhänge zwischen Elektrostatik und Diffusionsmodellen und lieferte neue theoretische Einblicke in die Diffusionsmodellforschung.“
Karsten Kreis, leitender Forschungswissenschaftler bei NVIDIA, sagte: „Generative Poisson-Flow-Modelle basieren nicht nur auf eleganten physikalischen heuristischen Formulierungen auf der Grundlage der Elektrostatik, sondern bieten auch in der Praxis die Leistung generativer Modelle auf dem neuesten Stand der Technik. Sie übertreffen sogar die beliebten Diffusionsmodelle, die derzeit in der Literatur dominieren.“