Auf der diesjährigen I/O Developer Conference hat Google die neue Generation der Modelle der Gemini 3.5-Serie und die neue Gemini Omni-Serie offiziell vorgestellt. Gemini 3.5 Flash wurde als erstes der Öffentlichkeit zugänglich gemacht, während sich Gemini Omni auf die Fähigkeit konzentriert, „aus jeder Eingabe Videos zu generieren“.

Gemini 3.5 Flash ist bereits für alle Benutzer über den AI-Modus in der Gemini-App und die Google-Suche verfügbar. Google behauptet, dass das Modell in vielen Dimensionen über ein Intelligenzniveau verfügt, das mit großen Flaggschiffmodellen vergleichbar ist, und gleichzeitig die konstante Hochgeschwindigkeitsleistung der Flash-Serie beibehält.

Der Einführung zufolge ist Gemini 3.5 Flash derzeit das stärkste Gemini-Agenten- und Codegenerierungsmodell. Es übertrifft Gemini 3.1 Pro sogar bei Benchmark-Tests im Zusammenhang mit komplexem Code und Agenten und behält die Führung beim multimodalen Verständnis, sodass es auch als aktuelles Standardmodell festgelegt ist. Benutzer können dieses Modell in täglichen Suchen, In-App-Konversationen und anderen Szenarien direkt aufrufen, um schnellere und intelligentere Antworten und Codeunterstützung zu erhalten.

Das zeitgleich vorgestellte Gemini Omni stellt Googles neuesten Versuch in Richtung generatives Video dar. Dieses neue Modell kann Videos aus jeder Eingabe generieren. Benutzer können Bilder, Audio, Videos und Text als Eingabe frei kombinieren, und das Modell generiert hochwertige Videoinhalte basierend auf dem realen Wissen von Gemini. Nach Abschluss der Generierung können Benutzer auch mehrere Konversationsrunden in natürlicher Sprache bearbeiten, um die Details im Video zu ändern und zu verfeinern.

Das erste Modell der Gemini Omni-Serie ist Gemini Omni Flash, das die teilweise oder vollständige Änderung des Videos unterstützt und die erzählerische Kohärenz der Originalszene über mehrere Erstellungsrunden hinweg beibehalten kann, sodass Benutzer kontinuierlich Anpassungen vornehmen können, ohne die Hauptgeschichte zu verlieren. Laut Google verfügt dieses Modell über ein intuitiveres Verständnis physikalischer Konzepte wie Schwerkraft, kinetische Energie und Fluiddynamik, wodurch realistischere und glaubwürdigere dynamische Szenen generiert werden können.

Was das kreative Erlebnis betrifft, ermöglicht Gemini Omni den Benutzern, ihre eigenen Stimmen und Avatare zu verwenden, um an der Videoerstellung teilzunehmen, und so digitale Avatare mit persönlichen Eigenschaften zu generieren. Um die Rückverfolgbarkeits- und Sicherheitsprobleme synthetischer Inhalte zu lösen, werden alle von diesem Modell generierten Videos mit digitalen SynthID-Wasserzeichen zur Kennzeichnung und Identifizierung von KI-generierten Inhalten eingebettet.

Was die Verfügbarkeit betrifft, ist Gemini Omni Flash ab heute für weltweite Abonnenten verfügbar. Nutzer, die die Pläne Google AI Plus, Pro und Ultra abonnieren, können das Modell direkt in der Gemini-App und Google Flow nutzen. Gleichzeitig führt Google diese Funktion auch kostenlos für YouTube Shorts und YouTube Create ein, sodass mehr YouTuber die auf der Gemini-Technologie basierende Videogenerierungsfunktion auf Mainstream-Content-Plattformen nutzen können.