OpenAI hat die dritte Version seiner Plattform für generative künstliche Intelligenz DALL-E für visuelle Künste veröffentlicht, die es Benutzern nun ermöglicht, Eingabeaufforderungen mit ChatGPT zu erstellen und mehr Sicherheitsoptionen bietet. DALL-E wandelt Textaufforderungen in Bilder um. Aber auch der DALL-E2 macht Fehler und übersieht oft bestimmte Formulierungen. OpenAI-Forscher sagen, dass die neueste Version den Kontext besser versteht.
Eine neue Funktion von DALL-E3 ist die Integration mit ChatGPT. Durch die Verwendung von ChatGPT müssen Benutzer nicht selbst detaillierte Eingabeaufforderungen schreiben, um DALL-E3 anzuleiten; Sie bitten ChatGPT einfach, eine Eingabeaufforderung zu erstellen, und der Chatbot schreibt einen Absatz (DALL-E eignet sich besser für längere Sätze), dem DALL-E3 folgen soll. Auch andere Nutzer können ihre eigenen Tipps nutzen, wenn sie spezielle Ideen für DALL-E haben.
DALL-E wurde erstmals im Januar 2021 veröffentlicht, vor StabilityAI und Midjourneys anderen generativen Text-zu-Bild-KI-Kunstplattformen. Bis zum Start von DALL-E2 im Jahr 2022 hat OpenAI eine Warteliste eröffnet, um zu kontrollieren, wer die Plattform nutzen darf, da kritisiert wird, dass DALL-E realistische, eindeutige Bilder generieren kann und bei den von ihm generierten Fotos Voreingenommenheit aufweist. Im vergangenen September hat das Unternehmen die Warteliste abgeschafft und das DALL-E2 für die Öffentlichkeit geöffnet.
Die neue Version von DALL-E wird zunächst im Oktober für Benutzer von ChatGPTPlus und ChatGPTEnterprise veröffentlicht, gefolgt von Forschungslaboren und ihren API-Diensten im Herbst. OpenAI plant, die Veröffentlichung von DALL-E3 zeitlich zu verschieben, hat sich jedoch nicht dazu verpflichtet, wann eine kostenlose öffentliche Version veröffentlicht wird.
OpenAI behauptet, umfangreiche Arbeit an DALL-E3 geleistet zu haben und sich dabei auf die Schaffung strenger Sicherheitsmaßnahmen zu konzentrieren, um die Erstellung obszöner oder potenziell hasserfüllter Bilder zu verhindern. OpenAI sagt, dass es mit externen Redteamern zusammenarbeitet – einer Gruppe, die absichtlich versucht, ein System zu kompromittieren, um seine Sicherheit zu testen – und sich auf Eingabeklassifikatoren verlässt, eine Methode, die Sprachmodellen beibringt, bestimmte Wörter zu ignorieren, um explizite oder Brute-Force-Eingabeaufforderungen zu vermeiden. Auch das Bild einer Person des öffentlichen Lebens kann der DALL-E3 nicht wiedergeben – sofern der Name in der Aufforderung explizit genannt wird.
Sandhini Agarwal, eine Politikforscherin des Unternehmens, sagte, sie sei „sehr zuversichtlich“ in die Sicherheitsmaßnahmen des Unternehmens, stellte jedoch klar, dass das Modell ständig verbessert werde und nicht perfekt sei. Ein Vertreter von OpenAI sagte in einer E-Mail, dass DALL-E3 darauf trainiert wurde, keine Bilder im Stil lebender Künstler zu erzeugen. Im Gegensatz zu DALL-E2 kann DALL-E2 bei entsprechender Aufforderung den Kunststil bestimmter Künstler imitieren.
Um potenzielle Klagen zu vermeiden, wird OpenAI Künstlern auch die Möglichkeit geben, ihre Kunstwerke von zukünftigen Versionen des Text-zu-Bild-KI-Modells auszuschließen. Ersteller können Bilder einreichen, deren Urheberrecht sie besitzen, und deren Entfernung beantragen, indem sie ein Formular auf der Website ausfüllen. Auf diese Weise können zukünftige Versionen von DALL-E Ergebnisse blockieren, die dem Bild und Stil des Künstlers ähneln. Die Künstler verklagten die DALL-E-Konkurrenten StabilityAI und Midjourney sowie die Kunst-Website DeviantArt und warfen ihnen vor, ihre urheberrechtlich geschützten Werke zum Trainieren von Text-Bild-Modellen zu verwenden.