Während eines Livestreams am Dienstag kündigte OpenAI-CEO Sam Altman das erste große Upgrade der Bildgenerierungsfunktionen von ChatGPT seit mehr als einem Jahr an. ChatGPT kann jetzt das GPT-4o-Modell des Unternehmens nutzen, um Bilder und Fotos nativ zu erstellen und zu ändern. GPT-4o war lange Zeit die Grundlage für Chatbot-Plattformen mit künstlicher Intelligenz, aber bisher konnte das Modell nur Text generieren und bearbeiten, keine Bilder.

Altman sagte, dass die native Bildgenerierung von GPT-4o jetzt in ChatGPT und OpenAIs KI-Videogenerierungsprodukt Sora verfügbar ist und Abonnenten des Pro-Plans des Unternehmens für 200 US-Dollar pro Monat zur Verfügung steht. OpenAI sagte, dass die Funktion bald für Plus- und kostenlose Benutzer von ChatGPT sowie für Entwickler, die die API-Dienste des Unternehmens nutzen, eingeführt wird.

GPT-4o mit Bildausgabe „denkt“ länger als das Bilderzeugungsmodell, das es effektiv ersetzt, DALL-E3, und erzeugt das, was OpenAI als genauere und detailliertere Bilder beschreibt. GPT-4o kann vorhandene Bilder bearbeiten, einschließlich Bilder mit Personen darin – sie umwandeln oder Details wie Vorder- und Hintergrundobjekte „korrigieren“.

OpenAI gab nicht bekannt, welche Bilddaten es zur Implementierung der neuen Bildgenerierungsfunktion verwendet hat. Viele Anbieter generativer KI betrachten Trainingsdaten als Wettbewerbsvorteil und halten daher diese und die sie umgebenden Informationen geheim. Die Details der Trainingsdaten könnten jedoch auch Rechtsstreitigkeiten im Zusammenhang mit geistigem Eigentum auslösen – ein weiterer Grund, warum Unternehmen davor zurückschrecken, zu viele Informationen offenzulegen. 

OpenAI bietet ein Opt-out-Formular, mit dem Urheber beantragen können, dass ihre Werke aus ihren Trainingsdatensätzen entfernt werden. Das Unternehmen erklärte außerdem, dass es Forderungen respektiere, seinen Web-Scraping-Bots das Sammeln von Trainingsdaten, einschließlich Bildern, von Websites zu verbieten.

Die verbesserten Bildgenerierungsfunktionen von ChatGPT folgen auf die experimentelle native Bildausgabe von Google für eines seiner Flaggschiffmodelle, Gemini 2.0 Flash. Diese leistungsstarke Funktion verbreitet sich in den sozialen Medien viral – und das nicht unbedingt aus guten Gründen. Die Grafikkomponente von Gemini2.0 Flash bietet nur wenige Schutzmaßnahmen, sodass Benutzer Wasserzeichen entfernen und Bilder erstellen können, die urheberrechtlich geschützte Zeichen darstellen.