Alibaba hat heute offiziell Qwen-Image-2.0 veröffentlicht, ein Bildgenerierungs- und Bearbeitungsmodell der neuen Generation.Als Bildgenerierungsmodellbasis des großen Qianwen-Modells integriert Qwen-Image-2.0 die Bildgenerierung und -bearbeitung. In der AI Arena-Bewertung zur Bildgenerierung erzielte es 1029 Punkte und übertraf damit Modelle wie Seedream4.5 und Flux2-Max und lag damit nur an zweiter Stelle hinter Google Nano Banana Pro und GPT Image1.5.

Qwen-Image-2.0 unterstützt die ultralange Texteingabe mit 1K-Token und die hohe Auflösung von 2K. Es kann komplexe Anweisungen präzise wiedergeben und problemlos professionelle PPTs und Infografiken erstellen. Die Qualität ist vergleichbar mit der von professionellen Fotografen. Gleichzeitig verfügt Qwen-Image-2.0 über extrem starke Fähigkeiten zur Darstellung chinesischer Schriftzeichen und der vollständige Text von Hunderten von alten Texten kann fast vollständig im Bild gerendert werden.

Qwen-Image-2.0 ist ein neues Upgrade, das auf den beiden Hauptmodellen Qwen-Image und Qwen-Image-Edit basiert. Erstmals sind Bildgenerierung und -bearbeitung in einem Modell vereint. Mit einer leichteren Modellarchitektur wird die Leistung der Bilderzeugung und Bildmodifikation erheblich verbessert.

Die Textur der von Qwen-Image-2.0 generierten Bilder ist besonders zart und reicht von den Falten eines alten Mannes bis hin zur Weite des Universums. Häufig verwendete Bilder von Menschen, Natur, Gebäuden usw., die vom Modell erzeugt werden, sind äußerst lebensecht.

In der maßgeblichen Bewertung AI Arena erzielte Qianwens neues Modell 1029 Punkte bei der Bilderzeugung und belegte damit den dritten Platz; In der Bildbearbeitung erzielte es 1034 Punkte und lag damit nur hinter Nano Banana Pro an zweiter Stelle.

Was die Darstellung chinesischer Schriftzeichen angeht, schneidet Qwen-Image-2.0 äußerst gut ab. Es kann nicht nur chinesische Schriftzeichen in einer Vielzahl von Schriftarten präzise wiedergeben, es kann auch viele und präzise schreiben, und der Effekt ist besser als bei Nano Banana Pro.

Das neue Modell von Qianwen erweitert die Eingabeaufforderungswörter auf 1K-Token, mit denen Aufgaben detailliert beschrieben, eine professionellere Textwiedergabe erreicht und komplexe Bilder wie professionelle PPTs, erweiterte Poster und Comics mit mehreren Frames problemlos verarbeitet werden können. Beispielsweise werden die Hunderte von Wörtern der Volltextillustrationen von „The Preface to the Lanting Collection“ fast vollständig in kleinen regulären Schriftarten wiedergegeben, und komplexe PPTs mit Illustrationen im Essayformat werden in natürlicher Sprache generiert.

Basierend auf dem Qwen-Image-2.0-Modell können Benutzer mit KI zusammenarbeiten, um reichhaltigere und praktischere Bilder zu erstellen, z. B. ein Flussdiagramm zur Generierung von Kung Pao Chicken in einem Satz, einen zweitägigen Reiseführer für Hangzhou, ein 4x6-Comic-Gruppenbild mit mehreren Bildern, ein Bilderbuchbild für Kinder, ein realistisches Filmplakat, einen äußerst realistischen grünen Dschungel usw.;

Gleichzeitig können Benutzer auch mehrere Bilder zur Bearbeitung hochladen, um Selfies mit mehreren Gesten, Emoticons mit echten Personen, realistische KI-Fotos von zwei Personen, Gedichte mit Bildern usw. zu erstellen.