Wenn es um die Technologie hinter dem aktuellen KI-Wahn geht, ist Google von Alphabet eigentlich der Erfinder, aber die Popularität seiner Produkte ist deutlich zurückgeblieben. Google hofft, dies mit der mit Spannung erwarteten Veröffentlichung von Gemini zu ändern, dem „größten und leistungsstärksten Worker-Intelligence-Modell“, das das Unternehmen bisher entwickelt hat.
Seit dem großen Erfolg von OpenAI im letzten Jahr mit seinem Konversations-Chatbot ChatGPT experimentieren immer mehr Unternehmen mit generativer KI, einer Technologie, die Aufgaben wie das Codieren, das Zusammenfassen von Berichten oder das Erstellen von Marketingkampagnen auf der Grundlage von Benutzeranfragen automatisieren kann. Bei einer Präsentation vor der Produkteinführung am 6. Dezember betonte Google, dass Gemini das flexibelste Modell sei, das es je gebaut habe, da es in Versionen unterschiedlicher Größe erhältlich sei, darunter auch eine, die direkt auf einem Smartphone ausgeführt werden könne. Dies unterscheidet es von anderen Mitbewerbern.
Dieses Modell der künstlichen Intelligenz ist ein System zur Unterstützung verschiedener generativer Anwendungen der künstlichen Intelligenz. Es ist in drei verschiedenen Versionen erhältlich: GeminiUltra, GeminiPro und GeminiNano. Eli Collins, Vice President of Product bei Googles DeepMind-Abteilung, sagte, diese Vielfalt bedeute, dass Gemini „auf allen Geräten funktionieren kann, von Mobilgeräten bis hin zu großen Rechenzentren“.
„Wir wollten schon lange eine neue Generation von Modellen für künstliche Intelligenz entwickeln, die von der Art und Weise inspiriert sind, wie Menschen die Welt verstehen und mit ihr interagieren – eines, das sich eher wie ein hilfreicher Mitarbeiter anfühlt als wie eine intelligente Software“, sagte Collins in einem Telefoninterview. „Gemini bringt uns dieser Vision einen Schritt näher.“
Vor der Veröffentlichung des Modells testete das Unternehmen Gemini anhand einer Reihe von branchenüblichen Benchmarks und sagte, dass Gemini Pro den GPT-3.5 von OpenAI in sechs von acht Tests übertraf. Laut Google übertraf Gemini GPT-4, die neueste Version des Allzweckmodells von OpenAI, in sieben von acht Benchmarks für allgemeines Sprachverständnis, Argumentation, Mathematik und Codierung. Unterdessen schätzt Google, dass sein neuestes generatives KI-Produkt, AlphaCode2, das Programmcode interpretiert und generiert, 85 % seiner Konkurrenten bei der Wettbewerbsprogrammierung übertrifft. Das Unternehmen wird einen technischen Bericht veröffentlichen, in dem die Modellarchitektur, der Trainingsprozess und die Bewertung von Gemini ausführlicher erläutert werden.
Ab dem 6. Dezember können sich Android-Entwickler, die Gemini-basierte Apps für Smartphones und Tablets schreiben möchten, registrieren, um eine „Nano“-Version dieses KI-Modells zu verwenden, das direkt auf solchen Geräten ausgeführt werden kann. Google sagte außerdem, dass es Gemini sofort auf seinem Flaggschiff-Telefon Pixel 8 Pro aktivieren wird, das neue generative KI-Funktionen unterstützen wird, wie etwa die Zusammenfassung wichtiger Punkte aus Telefonaufzeichnungen. Nächste Woche wird Google GeminiPro über seine Plattformen VertexAI und AIStudio für Cloud-Kunden verfügbar machen.
Gemini Ultra, die größte Version des künstlichen Intelligenzmodells von Google, wird zunächst in einem Early-Access-Programm für Entwickler und Unternehmen verfügbar sein. Einzelheiten zum Programm werden nächste Woche bekannt gegeben. Diese Version wird Anfang nächsten Jahres der breiten Öffentlichkeit zugänglich gemacht.
Gemini lässt sich über Bard, den Konversations-Chatbot des Unternehmens und Konkurrent von ChatGPT, auch in eine große Anzahl von Google-Apps und -Diensten integrieren. Zuvor nutzte Bard das PaLM2-Modell von Google, ein groß angelegtes Sprachmodell, das das Unternehmen auf seiner jährlichen Entwicklerkonferenz im Mai ankündigte.
Google stand im vergangenen Jahr unter dem Druck, sowohl sein Kerngeschäft mit der Suche neu zu erfinden als auch mit dem Aufstieg generativer Programme für künstliche Intelligenz zu kämpfen. Obwohl das Unternehmen seit langem als Pionier in der Forschung im Bereich der künstlichen Intelligenz gilt, wird von einigen kritisiert, dass sein Management langsam bei der Vermarktung von KI-Produkten sei, insbesondere nach dem Erfolg von Produkten wie ChatGPT und dem Bildgenerator Dall-E. Seit OpenAI GPT-4 im März veröffentlicht hat, arbeitet Google daran, seine Führungsposition auf diesem Gebiet zu bekräftigen, einschließlich der Einführung der neuen Technologie in sein ausgereiftes Suchgeschäft.
Gemini ist die Antwort des Unternehmens auf diesen Marktdruck. Google sagt, dass das KI-Modell „von Natur aus multimodal“ ist, was bedeutet, dass es von Anfang an vorab trainiert wurde, um von Benutzern gegebene text- und bildbasierte Eingabeaufforderungen zu verarbeiten. Beispielsweise hat Google in einer Videodemonstration gezeigt, dass Eltern ihren Kindern beim Erledigen von Hausaufgaben helfen können, indem sie ein Bild einer bestimmten Mathematikaufgabe und Fotos von Schritten zur Lösung der Aufgabe auf Notizpapier hochladen.
Im Demovideo sagte Applebaum, ein Softwareentwickler bei Google: „Zwillinge können nicht nur diese Fragen lösen, sondern auch die Antworten lesen und verstehen, welche richtig und welche falsch sind, und Konzepte erklären, die einer weiteren Klärung bedürfen.“ Das Unternehmen gab außerdem bekannt, dass sein „Suchgeneratives Erlebnis“ – eine experimentelle Version der Suchmaschine, die von Google mithilfe seiner generativen künstlichen Intelligenztechnologie entwickelt wurde – nächstes Jahr in die neuen Funktionen von Gemini integriert wird.
Dennoch warnten Unternehmensvertreter, dass Gemini immer noch anfällig für „Halluzinationen“ oder falsche oder erfundene Informationen sei, die durch generative KI erzeugt würden. Collins nennt dieses Phänomen „eine ungelöste Forschungsfrage“. Das Demovideo, das das Unternehmen Reportern zeigte, war vorab aufgezeichnet.
Collins sagte, Gemini „verfügt über die umfassendste Sicherheitsbewertung aller KI-Modelle bei Google.“ Um die Sicherheit von Gemini zu beurteilen, habe Google einen kontradiktorischen Test des KI-Modells durchgeführt, das einen böswilligen Akteur imitiere, der versucht, das Programm auszunutzen, und Hinweise gebe, sagte er. Der Test umfasste „Real Toxicity Prompts“, einen vom Allen Institute for Artificial Intelligence entwickelten Test, der mehr als 100.000 Eingabeaufforderungen aus dem Internet enthält, um KI-Forschern dabei zu helfen, große Sprachmodelle auf Hassreden und politische Voreingenommenheit zu untersuchen.
Google betonte außerdem, dass das Tool schnell sein werde. Gemini nutzt eine neue zugrunde liegende Supercomputer-Architektur und neuere Prozessorchips, was ihm eine schnellere Leistung als frühere, kleinere Modelle ermöglicht, so das Unternehmen. Google verwendet eine neue Version seines Cloud-Chips, Cloud Tensor Processing Units (kurz TPUs), einen intern entwickelten Chip, der bestehende Modelle 2,8-mal schneller trainieren kann als sein Vorgänger. Amin Wahdat, Googles Vizepräsident für maschinelles Lernen, sagte, der Ansatz gebe Google „einen neuen Blick auf die zukünftige Standard-KI-Infrastruktur“. Er fügte hinzu, dass das Unternehmen weiterhin KI-Chips von Drittanbietern verwenden werde, um sein Gemini-Modell auszuführen.
Gemini wird in Bard integriert, den im März eingeführten generativen KI-Chatbot von Google, der ihm Zugriff auf die beliebtesten Dienste des Unternehmens ermöglicht, darunter Gmail, Maps, Docs und YouTube. Der Rollout erfolgt in zwei unterschiedlichen Phasen: Ab dem 6. Dezember wird Bard von GeminiPro unterstützt, das logisches Denken, Planen, Verstehen und andere Fähigkeiten auf hohem Niveau ermöglicht. Es wird in 170 Ländern und Regionen auf Englisch umgesetzt werden können, insbesondere jedoch nicht in Europa oder Großbritannien, wo das Unternehmen nach eigenen Angaben mit den örtlichen Aufsichtsbehörden Rücksprache hält.
Anfang nächsten Jahres plant das Unternehmen die Veröffentlichung von BardAdvanced, das von einem leistungsstärkeren Gemini Ultra-Modell angetrieben wird. Google sagt, dass es bald ein vertrauenswürdiges Betaprogramm starten wird, um BardAdvanced zu verbessern, bevor es der Öffentlichkeit allgemein vorgestellt wird. Sissie Hsiao, Googles Vizepräsidentin für Bard-Produkte, sagte: „Mit dem Segen von Gemini durchläuft Bard sein bisher größtes und bestes Upgrade, das den Menschen neue Möglichkeiten zum Schaffen, Interagieren und Zusammenarbeiten eröffnen wird.“