Google ist mit Gemini wirklich da und seine multimodalen Fähigkeiten haben das gesamte Netzwerk schockiert. Das Modell der nächsten Generation wird die Deep-Reinforcement-Learning-Technologie von AlphaGo integrieren und 2024 auf den Markt kommen. Das Modell, das GPT-4 wirklich herausfordern kann, ist Google Gemini. Sobald Gemini veröffentlicht wurde, erfasste die Demonstration der leistungsstarken multimodalen Fähigkeiten das gesamte Internet, und das Thema GPT-5 wurde sofort in die Schlagzeilen gerückt.


Wenn Sie PaLM2 wegwerfen, wird mit der Unterstützung von Gemini auch die gesamte Produktpalette wie GoogleBrad und Office Home Bucket vollständig neu geboren.

Beamte von Google sagten, dass der Gemini Ultra Cup nächstes Jahr veröffentlicht wird.


Bevor Gemini offiziell veröffentlicht wurde, sagten Personen, die internen Tests unterzogen wurden: „Wenn 2023 das erste Jahr großer Modelle ist, wird 2024 wahrscheinlich das Jahr von Gemini sein.“

Wie Demis Hassabis, Leiterin von Google DeepMind, sagte, ist die Ära der Zwillinge angebrochen.

Es zeigt sich, dass die Deep-Reinforcement-Learning-Technologie von AlphaGo in das Gemini-Modell integriert wird und die nächste Version im Jahr 2024 hochentwickelt sein wird.

32k-Kontext, drei Tassentypen

ChatGPT steht seit seiner Gründung im Rampenlicht, was Sergey Brin, den Mitbegründer, der sich hinter die Kulissen zurückgezogen hat, beunruhigt.

Im Juli wurde bekannt, dass er zum Unternehmen zurückgekehrt war, um an der Entwicklung des KI-Systems der nächsten Generation mitzuwirken.


Sein Name ist in der Autorenliste des Gemini-Artikels deutlich aufgeführt.


https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf


Bezüglich des 60-seitigen technischen Berichts von Gemini haben Internetnutzer eine gekürzte Version erstellt.


1. In Jax geschrieben und mit TPU trainiert. Obwohl nicht im Detail erklärt, scheint seine Architektur der von Flamigo zu ähneln.

2. Die Leistung von GeminiPro ähnelt der von GPT-3.5, während GeminiUltra angeblich besser als GPT-4 ist. Nano-1 (1,8B Parameter) und Nano-2 (3,25B Parameter) sind für die Ausführung auf Endgeräten konzipiert.

3,32 KB Kontextlänge.

4. Sehr gut darin, Sehen und Sprechen zu verstehen.

5. Codierungsfähigkeit: Im Vergleich zu GPT-4 weist HumanEval einen enormen Sprung auf (74,4 % gegenüber 67 %). Der Natural2Code-Benchmark zeigt jedoch eine viel geringere Lücke (74,9 % gegenüber 73,9 %).

6. Bezüglich MMLU: Es scheint etwas zurückhaltend zu sein, COT@32 (32 Proben) zu verwenden, um zu veranschaulichen, dass Gemini besser als GPT-4 ist. Unter den 5 Beispieleinstellungen ist GPT-4 besser (86,4 % gegenüber 83,7 %).

7. Keine Informationen über die Schulungsdaten, außer sicherzustellen, dass „allen Datenanreicherungsarbeitern mindestens ein lokaler existenzsichernder Lohn gezahlt wird“.


Das Sprachverständnis und die Sprachgenerierungsleistung des Gemini-Modells in drei Größen: mittlerer Körbchen, großer Körbchen und extra großer Körbchen mit unterschiedlichen Fähigkeiten.


Die folgenden Bilder sind wichtige Vergleichsdaten.

Gemini-Leistung bei Text-Benchmarks im Vergleich zu externen Modellen und PaLM2-L.


Beim Bildverständnis übertrifft GeminiUltra stets alle Modelle.


Auswertungsergebnisse zu Sprachbenchmarks zeigen, dass GeminiPro andere Modelle bei der Spracherkennung und automatischen Sprachübersetzung übertrifft.


Netizen-Kommentare

Generierung verschachtelter Textbilder

Ein Entwickler, Brian Roemmele, fand GeminiUltra etwas besser.

Dem technischen Bericht zufolge ist das GeminiUltra-Modell umfassend auf YouTube-Daten trainiert, sodass es eine Reihe von Standbildern aus einer Szene im Video („The Matrix“) ableiten und daraus eine Texterzählung schreiben kann.

Nach dem Testen auf ChatGPT-4Turbo stellte Roemmele fest, dass eine solche Ausgabe nicht begründet werden konnte.



GeminiUltra antwortet auch mit einer Kombination aus Bildern und Text. Dies wird als „verschachtelte Text- und Bilderzeugung“ bezeichnet.

Dies ist möglich, weil das Modell auf multimodale Eingaben trainiert wird.


Das Folgende ist GeminiUltra, das Text und Bilder von Garnknäueln bis hin zu gestrickten Fertigprodukten generiert.


Multimodal+Tools

In diesem Beispiel sehen wir, dass GeminiUltra die Leistungsfähigkeit des multimodalen Trainings und der Feinabstimmung bei der Ausführung einer Aufgabe voll ausnutzt.

Das Ausmaß der Entwicklung dieser Synergie ist das erste seiner Art in aktuellen Modellen der künstlichen Intelligenz. Es kombiniert Multimodalität mit der Verwendung von Werkzeugen: Malen, um nach Musik zu suchen.



Die „Magie“ enthüllen

Noch erstaunlicher ist, dass GeminiUltra auch Magie verstehen kann.

Roemmele sagte, dass durch die Identifizierung klassischer Magie die Merkmale des einheitlichen multimodalen Gemini-Modells sichtbar werden. Dank der am Modell trainierten YouTube-Videos kann es den Ablauf verstehen und durch Logik Schlussfolgerungen ziehen.


Als nächstes ist es an der Zeit, Zeuge des Wunders zu werden. Geben Sie ein Bild einer Münze in der rechten Hand und bitten Sie Zwillinge, sie zu beschreiben.


Nach dem Verschwinden der Münzen kann GeminiUltra alle gerade beobachteten Prozesse Schritt für Schritt zusammenfassen.



Abschließend werden die Ergebnisse auf der Grundlage logischer Überlegungen abgeleitet.


Multimodale Testfragen für Gemini

Ein Reddit-Benutzer hat einen Screenshot hochgeladen, der seiner Aussage nach das Ergebnis einer tatsächlichen Messung unter Gemini sei.

Das Bild zeigt den Prozess eines Gymnasiasten, der ein Physikproblem löst. Er bat Gemini, den Problemlösungsprozess zu korrigieren, und forderte ihn auf, die richtige Antwort zu geben, wenn ein Fehler vorlag.

Zwillinge lasen die Problemlösungsideen der Schüler auf dem Bild vor und beantworteten die Fragen erfolgreich.


Als wir GPT-4 selbst die gleiche Frage stellten, blieb es beim ersten Antwortversuch plötzlich auf halbem Weg hängen.


Als er erneut um eine Antwort gebeten wurde, ging GPT-4 richtig davon aus, dass es ein Problem mit den Problemlösungsideen des Schülers gab, und gab die richtige Antwort.


Die gleiche Situation passierte auch Reddit-Internetnutzern.


GeminiNano bringt den Krieg der großen Modelle auf das Mobiltelefon

Der diesmal von Google veröffentlichte Gemini ist nicht nur eine Reaktion auf das von OpenAI mithilfe von GPT-4 definierte „große Modell SOTA“, sondern bringt auch den Krieg der großen Modelle direkt auf das mobile Endgerät. Jetzt liegt der Druck auf Apples Seite.

Die drei Versionen von UltraPro Nano von Gemini sind für alles von Rechenzentren bis hin zu Mobiltelefonen optimiert und können die unterschiedlichen Bedürfnisse verschiedener Benutzer in unterschiedlichen Nutzungsszenarien erfüllen.


GeminiNano ist das effizienteste Modell, das Google für Aufgaben auf Mobilgeräten entwickelt hat. Jetzt läuft es bereits auf Googles Pixel 8 Pro.

Als erstes Smartphone, das speziell für Gemini Nano entwickelt wurde, nutzt Pixel 8 Pro die Leistungsfähigkeit von Googles künstlicher Intelligenz SocTensor G3, um zwei erweiterte Funktionen anzubieten: Snippets im Recorder und intelligente Antworten in Gboard.

Durch die lokale Ausführung von GeminiNano können Benutzer ihre sensiblen Daten behalten, ohne ihr Telefon zu verlassen, und die Funktionen großer Modelle ohne Netzwerkverbindung nutzen.

Zusätzlich zu Gemini Nano, das jetzt auf Pixel 8 Pro läuft, können Pixel-Telefone in Zukunft über die intelligente Assistentenfunktion von Bard eine leistungsstärkere Gemini-Version freischalten.

Im Rekorder zusammenfassen

Gemini Nano kann jetzt eine KI-Zusammenfassung von Inhalten im Audiorecorder auf Pixel 8 Pro durchführen.

Benutzer können direkt Zusammenfassungen ihrer aufgezeichneten Gespräche, Interviews, Präsentationen usw. erstellen, ohne mit dem Internet verbunden zu sein.



Diese Funktion kann Benutzern helfen, die langen Sprachinhalte, die sie zuvor aufgezeichnet haben, schnell und klar zu sortieren, um sie weiter zu verwenden und zu organisieren. Man muss sagen, dass es wirklich praktisch ist.

Über Gboard können in den Chats der Benutzer intelligente Antworten erstellt werden

In Pixel8Pro kann GeminiNano die Smart-Reply-Funktion in Gboard unterstützen.


Das KI-Modell auf Mobiltelefonen steht jetzt zum Testen auf WhatsApp zur Verfügung, und im nächsten Jahr werden weitere Anwendungen auf den Markt kommen, die konversationsbewusste Funktionen nutzen können, um qualitativ hochwertige Antworten vorzuschlagen und Benutzern viel Zeit zu sparen.


Die Ära der Zwillinge steht vor der Tür

Als Leiterin von Google DeepMind ist auch Demis Hassabis sehr aufgeregt und sagte, dass „die Ära der Zwillinge angebrochen ist“.


Im jüngsten Interview mit Wired sagte Hassabis unverblümt, dass das heute von Google angekündigte Modell der künstlichen Intelligenz Gemini einen bisher unerprobten Weg für die künstliche Intelligenz eröffnet habe und zu großen neuen Durchbrüchen führen könnte.

„Als Neurowissenschaftler und Informatiker wollte ich schon seit vielen Jahren versuchen, eine neue Generation von Modellen der künstlichen Intelligenz zu entwickeln. Diese Modelle sind von der Art und Weise inspiriert, wie alle unsere Sinne interagieren und die Welt verstehen.“

„Gemini ist ein großer Schritt in Richtung dieses ‚multimodalen‘ Modells.“


Er fuhr fort: „Bisher haben die meisten Modelle multimodale Fähigkeiten erreicht, indem sie separate Module trainierten und sie dann zusammenfügten.“

„Für einige Aufgaben ist das in Ordnung, aber im multimodalen Raum ist eine tiefgreifende komplexe Argumentation nicht möglich.“

Dies scheint eine Anspielung auf die Technologie von OpenAI zu sein.

Wir alle wissen, dass die multimodalen Fähigkeiten von ChatGPT durch eine Kombination der Modelle GPT-4, DALL·E3 und Whisper erreicht werden.

Auf der Google Developer Conference I/O im Mai dieses Jahres gab Pichai erstmals offiziell bekannt, dass Google einen neuen, leistungsstärkeren PaLM-Nachfolger namens Gemini trainiert.


Auch die Namensgebung der Zwillinge hat eine tiefe Bedeutung. Es soll an den Zusammenschluss der beiden Teamlabore von Google Brain und DeepMind erinnern und NASA Gemini Tribut zollen.

In den letzten 7 Monaten sind nacheinander verschiedene Enthüllungen über Zwillinge aufgetaucht.

Jetzt hat Google Gemini in erstaunlicher Geschwindigkeit entwickelt und noch vor Jahresende einen großen Gegenangriff gestartet.

Hassabis sagte, dass die Fähigkeit des neuen Modells, verschiedene Formen von Daten, einschließlich Daten über Text hinaus, zu verarbeiten, von Anfang an ein zentraler Bestandteil der Vision des Projekts gewesen sei.

Viele KI-Forscher glauben, dass die Fähigkeit, Daten in verschiedenen Formaten zu nutzen, eine Schlüsselfähigkeit natürlicher Intelligenz ist, die Maschinen fehlt.

Große KI-Modelle wie ChatGPT haben durch das Lernen aus leistungsstarken Internetdaten flexible und leistungsstarke Generalisierungsfähigkeiten erlangt.

Doch während ChatGPT und ähnliche Chatbots (11.880,0,19,1,63 %) dieselben Fähigkeiten nutzen können, um Fragen über die physische Welt zu diskutieren oder zu beantworten, kann dieses oberflächliche Verständnis schnell auseinanderfallen.


Viele Experten für künstliche Intelligenz glauben, dass bedeutende Fortschritte in der maschinellen Intelligenz erfordern werden, dass KI-Systemen Körper in der physischen Realität, also „verkörpert“, verliehen werden.

Hassabis sagte, dass Google DeepMind bereits untersucht, wie man Zwillinge mit Robotik kombinieren kann, um physisch mit der Welt zu interagieren.

„Um wirklich multimodal zu sein, müssen Sie Berührungs- und taktiles Feedback einbeziehen. Die Anwendung dieser Grundmodelle auf die Robotik ist vielversprechend, und wir erforschen dies intensiv.“

Derzeit hat Google einen kleinen Schritt in diese Richtung gemacht.

Im Mai kündigte das Unternehmen ein KI-Modell namens Gato an, das lernen kann, eine Vielzahl von Aufgaben auszuführen, darunter das Spielen von Atari-Spielen, das Hinzufügen von Bildunterschriften und das Stapeln von Blöcken mithilfe eines Roboterarms.

Im Juli dieses Jahres verwendete das Google RT-2-Robotermodell Sprachmodelle, um Robotern dabei zu helfen, Aktionen zu verstehen und auszuführen.


Damit ein KI-Agent zuverlässiger ist, müssen die Algorithmen, die ihn antreiben, intelligenter sein.

Vor einiger Zeit wurde bekannt, dass OpenAI ein Projekt namens „Q*“ entwickelt. Internetnutzer spekulierten, dass „Reinforcement Learning“ verwendet werden könnte, die Kerntechnologie von AlphaGo.

Hassabis sagte jedoch, dass Google derzeit ähnliche Untersuchungen durchführe.

Es wird erwartet, dass die Fortschritte von AlphaGo dazu beitragen werden, die Planung und Schlussfolgerung in zukünftigen Modellen wie dem heute eingeführten zu verbessern. Wir arbeiten an einigen interessanten Neuerungen, die wir in zukünftige Versionen von Gemini integrieren möchten.

„Nächstes Jahr werden Sie die Superentwicklung der Gemini erleben.“

Es scheint, dass wir, wie Internetnutzer sagten, nicht mehr weit von dem Tag entfernt sind, an dem GPT-5 kommt.


Referenzen:

https://twitter.com/sundarpichai/status/1732414873139589372

https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/