OpenAI veröffentlicht das Bildmodell der neuen Generation gpt-image-1.5

OpenAI hat heute offiziell ein neues Bildgenerierungsmodell gpt-image-1.5 eingeführt, das eindeutig auf die mit Spannung erwartete Nano Banana-Serie unter dem Google Gemini-System abzielt, um seine Wettbewerbsfähigkeit im Bereich der KI-Bildgenerierung zu verbessern. Dieses neue Modell steht sowohl Entwicklern als auch normalen Benutzern offen und übernimmt vollständig die Bildgenerierungsfunktion in ChatGPT.

Im März dieses Jahres brachte OpenAI ein großes Upgrade der Bildgenerierungsfunktion von ChatGPT. Das neue Modell erfreute sich nach seiner Markteinführung schnell großer Beliebtheit. Innerhalb einer Woche haben Benutzer mehr als 700 Millionen Bilder in ChatGPT generiert. Im April öffnete OpenAI dann die gleiche Generation der Bildtechnologie für Entwickler, indem es die gpt-image-1-Schnittstelle veröffentlichte, die es ihm ermöglichte, Bildgenerierungsfunktionen in verschiedene Anwendungen und Dienste zu integrieren.

Das im September debütierte Google Gemini Nano Banana-Modell eroberte jedoch schnell das Thema und den Markt. Mit seiner stärkeren Bilderzeugungs- und Bearbeitungsleistung steigerte es die Nutzerreichweite von Gemini deutlich. Nano Banana gilt hinsichtlich Bildqualität und Bearbeitungsflexibilität als gpt-image-1 weit überlegen und wurde von Entwicklern auf der ganzen Welt weithin übernommen. Letzten Monat hat Google auf dieser Grundlage Gemini 3 Pro Image (Codename Nano Banana Pro) auf den Markt gebracht und dabei die Vorteile von Gemini in Bezug auf Argumentation und reales Wissen genutzt, um die Genauigkeit und Konsistenz der generierten Bilder weiter zu verbessern.

Das vor diesem Hintergrund eingeführte gpt-image-1.5 wird von OpenAI als Kernprodukt der neuen Generation angesehen, das direkt mit der Gemini Nano Banana-Serie konkurriert. Das neue Modell hat die Komplexität der Bildbearbeitung und die Wiedergabetreue wichtiger Elemente wie Markenlogos und Gesichter erheblich verbessert. Es ist auch genauer beim Verstehen und Ausführen von Benutzeranweisungen. OpenAI betonte außerdem, dass das neue Modell die Verarbeitung von Text in Bildern erheblich verbessert habe, insbesondere die Klarheit und Korrektheit von dichtem Text und Text mit kleiner Schriftgröße.

Für Entwickler ist die Kostenoptimierung ein Highlight von gpt-image-1.5: Im Vergleich zur Vorgängergeneration gpt-image-1 ist das neue Modell bei der Abrechnung der Bildeingabe und -ausgabe etwa 20 % günstiger. Entwickler können die Generierungskosten weiterhin über den Qualitätsparameter genau steuern, und OpenAI behauptet, dass das neue Modell auch bei niedrigeren Qualitätseinstellungen immer noch einen starken Generierungseffekt aufrechterhalten kann.

Für normale Benutzer ist gpt-image-1.5 zur zugrunde liegenden Engine für die integrierte Bildgenerierungserfahrung von ChatGPT geworden. OpenAI sagte, dass dieses Modell eine präzise Bearbeitung durchführen kann, während Details wie Beleuchtung, Komposition und Charaktereigenschaften im Wesentlichen unverändert bleiben. Im Vergleich zur Vorgängergeneration kann eine bis zu vierfache Leistungssteigerung erzielt werden, und die Reaktionsgeschwindigkeit bei der Generierung und Bearbeitung ist schneller.

Im Zusammenhang mit dem neuen Modell hat OpenAI auch einen neuen Bildbereich „Bilder“ in ChatGPT eingeführt, der gleichzeitig in der mobilen Anwendung und der Webversion geöffnet wurde. Benutzer können voreingestellte Filter und Aufforderungswörter verwenden, um schnell mit der Bildgenerierung in diesem Bereich zu beginnen. Diese Voreinstellungen werden regelmäßig aktualisiert, um den neuesten kreativen Stilen und Trends zu entsprechen. OpenAI gab an, dass das neue Bildgenerierungsmodell und die ChatGPT-Bildererfahrung nach und nach allen ChatGPT-Benutzern zur Verfügung gestellt werden und in Zukunft weiterhin auf Benutzerfreundlichkeit und Erstellungseffizienz Wert gelegt werden.