Google gibt zu, dass mindestens eine Leistungsdemonstration der neu eingeführten Gemini AI edited

Google hat gerade Gemini veröffentlicht, seine bisher leistungsstärkste Suite von Modellen für künstliche Intelligenz, doch dem Unternehmen wurde vorgeworfen, über seine Leistung gelogen zu haben. In einer Kolumne von Bloomberg wurde behauptet, Google habe die Leistung von Gemini in einem aktuellen Video falsch dargestellt. Kolumnist Parmy Olson sagte, dass Google bei seiner Einführungsveranstaltung Anfang dieser Woche ein beeindruckendes praktisches Video „What the AIquack“ abgespielt habe. Im Video sahen Zwillinge sehr fähig aus – vielleicht zu mächtig.

Dieses sechsminütige Video demonstriert die multimodalen Fähigkeiten von Gemini (z. B. gesprochene Dialogansagen kombiniert mit Bilderkennung). Zwillinge scheinen in der Lage zu sein, Bilder (sogar verbundene Bilder) schnell zu erkennen, innerhalb von Sekunden zu reagieren und Papierbälle in einem Pokal- und Ballspiel in Echtzeit zu verfolgen. Natürlich kann der Mensch das alles, aber das ist eine KI, die erkennen und vorhersagen kann, was als nächstes passieren wird.

Klicken Sie jedoch auf die Videobeschreibung auf YouTube, und Google hat einen wichtigen Haftungsausschluss: „Zu Demonstrationszwecken wurde die Latenz reduziert und die Ausgabe von Gemini der Einfachheit halber gekürzt.“

Hier ist Olson unzufrieden. Laut ihrem Bloomberg-Artikel gab Google auf die Frage nach einem Kommentar zu, dass die Videodemonstration nicht live mit Sprachansagen stattfand, sondern stattdessen Standbilder aus dem Originalmaterial verwendete und dann Textansagen verfasste, auf die Gemini antworten konnte. Olson schrieb: „Das unterscheidet sich stark von dem, was Google offenbar andeutet: dass man mit Gemini ein reibungsloses Sprachgespräch führen kann, während Gemini die Welt um sich herum in Echtzeit beobachtet und darauf reagiert. Um fair zu sein, bearbeitet Google häufig Demovideos, insbesondere da viele Unternehmen technische Probleme vermeiden möchten, die mit Live-Demonstrationen einhergehen KI-Sprachassistent, der Friseursalons und Restaurants anrufen könnte, um Reservierungen vorzunehmen).

In diesem Fall glaubt Olson, dass Google „angeberisch“ ist, um die Leute in die Irre zu führen, sodass sie nicht wissen, dass Gemini immer noch hinter dem GPT von OpenAI zurückbleibt.

Google ist damit nicht einverstanden. Auf die Frage nach der Authentizität der Demo verwies Google auf einen Artikel von Oriol Vinyals, Vizepräsident für Forschung und Leiter für Deep Learning bei Google DeepMind (der auch Gemini leitet), in dem erklärt wird, wie das Team das Video erstellt hat.

Vinyals sagte: „Alle Benutzeraufforderungen und -ausgaben im Video sind real und wurden der Kürze halber gekürzt. Das Video zeigt ein multimodales Benutzererlebnis, das mit Gemini erstellt wurde. Wir haben es erstellt, um Entwickler zu inspirieren.“

Er fügte hinzu, dass das Team Gemini Bilder und Texte gegeben und sie gebeten habe, vorherzusagen, was als nächstes passieren würde.

Das ist sicherlich eine Möglichkeit, mit der Situation umzugehen, aber es passt möglicherweise nicht zu Google – das, zumindest in den Augen der Öffentlichkeit, vom überwältigenden Erfolg von OpenAI in diesem Jahr überrascht war. Wenn Google Entwicklern Anreize bieten möchte, kann dies nicht durch sorgfältig bearbeitete Werbevideos geschehen, die die Fähigkeiten der KI falsch darstellen könnten. Sondern indem wir Journalisten und Entwickler das Produkt tatsächlich erleben lassen. Lassen Sie die Leute in einer kleinen öffentlichen Beta mit Gemini dumme Dinge tun. Mal sehen, wie mächtig es ist.