Google hat kürzlich ein großes Upgrade für seinen Gemini-Chatbot gestartet: Nachdem Nutzer Fragen gestellt haben, kann das System nicht nur mit Text antworten, sondern auch direkt interaktive 3D-Modelle und physische Simulationsszenen generieren. Das bedeutet, dass Gemini, wenn Benutzer „ein Problem sehen“ möchten, dies jetzt über eine drehbare, skalierbare 3D-Visualisierung mit Parametersteuerung tun kann.

Laut Google wird Gemini nach der Aktivierung neuer Funktionen mehrere Interaktionsmethoden gleichzeitig bei der Generierung von 3D-Modellen oder Simulationen bereitstellen. Benutzer können nicht nur ziehen, um das Modell zu drehen und Details zu vergrößern, sondern auch Variablen manuell über Schieberegler anpassen oder verschiedene Werte eingeben, um die Änderungen in Echtzeit zu beobachten. Bei Fragen, die physikalische Prozesse oder abstrakte Konzepte betreffen, soll diese Art der interaktiven Visualisierung zu einer neuen Art von Antwortform werden.

In der Praxis nahm der Reporter als Testbeispiel die „Erstellung einer Simulation des Mondes, der die Erde umkreist“. Gemini generiert dann eine visuelle dreidimensionale Szene: Benutzer können die Umlaufgeschwindigkeit des Mondes mit Schiebereglern anpassen, die Flugbahnlinien, die die Umlaufbahn darstellen, mit Schaltern ein- oder ausblenden und die Demonstration mit Tasten anhalten oder fortsetzen. Gleichzeitig können Nutzer den gesamten Satz an 3D-Modellen zoomen und drehen, um den Bewegungsablauf aus verschiedenen Perspektiven zu beobachten.

Zuvor hatte Gemini die Generierung interaktiver flacher Bilder auf der Grundlage von Benutzereingaben unterstützt, war jedoch immer noch auf die Interaktion auf Bildebene beschränkt. Dieses Upgrade erweitert die Fähigkeiten auf 3D-Modelle und dynamische Simulationen und erweitert damit die Möglichkeiten für das KI-gestützte Verständnis und die Präsentation komplexer Konzepte. Dieses Update findet auch inmitten des Wettbewerbs großer Modellanbieter um „visuelle Antworten“ statt: Vor nicht allzu langer Zeit führte Anthropic die Möglichkeit ein, automatisch Diagramme, Schemata und andere interaktive Visualisierungen für Claude zu generieren, während OpenAI ChatGPT auch Visualisierungstools für mathematische und wissenschaftliche Konzepte hinzufügte.

Derzeit können alle Benutzer der Gemini-App diese neue Funktion nutzen, indem sie das „Pro“-Modell auswählen. Der Betriebspfad lautet: Schalten Sie das Modell in der Anwendung auf Pro um und stellen Sie dann Anforderungen an Gemini, z. B. „Zeigen Sie ein Doppelpendelsystem“ und „Helfen Sie mir, den Doppler-Effekt zu visualisieren“. Nachdem Gemini die Textbeschreibung zurückgegeben hat, erscheint unten auf der Benutzeroberfläche die Schaltfläche „Zeige mir die Visualisierung“. Klicken Sie darauf, um das entsprechende 3D-Modell oder die entsprechende Simulationsszene zu generieren.