Die Huazhong University of Science and Technology gab offiziell eine Erklärung heraus, in der es heißt, dass ein Team der Software School der Schule das multimodale Großmodell „Monkey“ veröffentlicht habe.Dieses Modell eignet sich gut für die Bildbeschreibung und für visuelle Fragen und Antworten. Es kann die Welt „beobachten“, eine eingehende Frage- und Antwortkommunikation durchführen und Bilder genau beschreiben.


Laut der offiziellen Einführung schnitt das Huake University Monkey-Modell in Experimenten mit 18 Datensätzen besonders gut abIn Bezug auf Bildbeschreibung und visuelle Frage- und Antwortaufgaben hat es viele bekannte Modelle wie Microsofts LLAVA, Googles PALM-E, Alibabas Mplug-owl usw. übertroffen.

Auch,Monkey zeigt deutliche Vorteile bei textintensiven Frage- und Antwortaufgaben und übertrifft in einigen Beispielen sogar den branchenweit anerkannten Spitzenreiter GPT-4V.

Eine Besonderheit von Monkey ist seine hervorragende Fähigkeit, „durch das Betrachten von Bildern zu sprechen“. In der detaillierten Beschreibungsaufgabe demonstrierte Monkey seine Fähigkeit, Bilddetails wahrzunehmen und konnte Inhalte erkennen, die andere große multimodale Modelle ignorierten.

Ein weiteres Highlight ist die Fähigkeit, Bilder mit Auflösungen von bis zu 1344 x 896 Pixeln zu verarbeiten, was dem Sechsfachen der maximalen Größe entspricht, die andere multimodale große Modelle derzeit verarbeiten können.

Es wird berichtet, dass die maximale Auflösung der derzeit von der Industrie verarbeiteten Bilder 448 x 448 Pixel beträgt.

Erwähnenswert ist, dass das Team den Monkey-Code auf GitHub, der weltweit größten Code-Hosting-Service-Plattform, als Open Source bereitgestellt hat.