Apple veröffentlicht das künstliche Intelligenzmodell MGIE, das Bilder basierend auf der Eingabe natürlicher Sprache bearbeiten kann

Apple-Forscher haben ein neues Open-Source-Modell für künstliche Intelligenz veröffentlicht, das Bilder basierend auf Anweisungen von Benutzern in natürlicher Sprache bearbeiten kann. MGIE ist die Abkürzung für MLLM-GuidedImageEditing, das das Multimodal Large Language Model (MLLM) verwendet, um Benutzeranfragen zu interpretieren und Operationen auf Pixelebene durchzuführen.

Dieses Modell ist in der Lage, jeden Aspekt eines Bildes zu bearbeiten. Globale Fotoverbesserungen können Helligkeit, Kontrast oder Schärfe umfassen oder künstlerische Effekte wie Skizzieren anwenden. Durch die lokale Bearbeitung können Form, Größe, Farbe oder Textur bestimmter Bereiche oder Objekte in einem Bild geändert werden. Zu den Änderungen im Photoshop-Stil gehören Zuschneiden, Größenänderung, Drehen und Hinzufügen von Filtern oder sogar das Ändern des Hintergrunds und das Überblenden des Bildes.

Die Eingabe eines Benutzers für ein Bild einer Pizza könnte lauten: „Sie gesünder aussehen lassen“. Mit gesundem Menschenverstand kann das Modell pflanzliche Zutaten wie Tomaten und Kräuter hinzufügen. Eingabeanfragen zur globalen Optimierung könnten in der Form „Kontrast erhöhen, mehr Licht simulieren“ erfolgen, während Modifikationen im Photoshop-Stil das Modell auffordern könnten, Personen aus dem Hintergrund des Fotos zu entfernen und so den Fokus des Bildes auf die Gesichtsausdrücke des Motivs zu verlagern.

Apple hat mit Forschern der University of California zusammengearbeitet, um MGIE zu entwickeln, und einen Artikel auf der International Conference on Learning Representations (ICLR) 2024 veröffentlicht. Das Modell ist auf GitHub verfügbar, einschließlich Code, Daten und vorab trainierten Modellen.

Dies ist Apples zweiter Durchbruch in der Forschung zur künstlichen Intelligenz innerhalb von ebenso vielen Monaten. Ende Dezember gab Apple bekannt, dass es durch die Erfindung einer innovativen Technologie zur Flash-Speichernutzung Fortschritte bei der Bereitstellung großer Sprachmodelle (LLMs) auf iPhones und anderen speicherbeschränkten Apple-Geräten erzielt hat.

Seit einigen Monaten testet Apple ein „AppleGPT“, das mit ChatGPT konkurrieren könnte. Laut Mark Gurman von Bloomberg hat die KI-Arbeit für Apple Priorität und das Unternehmen entwirft ein „Ajax“-Framework für große Sprachmodelle.

Sowohl The Information als auch der Analyst Jeff Pu behaupten, dass Apple gegen Ende 2024, wenn iOS 18 auf den Markt kommt, eine Art generative künstliche Intelligenz auf iPhone und iPad einführen wird. Laut Gurman soll iOS 18 eine erweiterte Version von Siri mit ChatGPT-ähnlichen generativen KI-Funktionen enthalten und das Potenzial haben, das „größte“ Software-Update in der iPhone-Geschichte zu werden.