Google kündigte die Einführung eines neuen Text-to-Speech-Modells Gemini-TTS in seiner Gemini 3.1-Serie an, das offiziell als „die bislang ausdrucksstärkste Text-to-Speech-Lösung“ bezeichnet wird. Das neue Modell kann natürlich klingende Sprache mit hoher Wiedergabetreue erzeugen und ermöglicht es Entwicklern gleichzeitig, die Emotionen, den Rhythmus und den Stil der Sprache durch Eingabeaufforderungen zu steuern, wie z. B. die genaue Anpassung von Ton, Pausen und emotionalen Veränderungen in der Erzählung oder im Dialog.

Was die Mehrsprachenunterstützung betrifft, deckt Gemini-TTS etwa 70 Sprachen ab, darunter Chinesisch (Mandarin), Englisch, Spanisch, Deutsch, Japanisch und andere gängige Sprachen. Das Modell kann die Sprache des Eingabetextes automatisch erkennen und die entsprechende Sprache generieren, ohne den Sprachtyp manuell markieren zu müssen. Diese Funktion ermöglicht es Entwicklern und Unternehmen, einen einheitlichen Satz von APIs zu verwenden, um globalen Benutzern mehrsprachige Sprachinhalte in Szenarien wie Hörbüchern, Podcasts, Sprachassistenten, Kundendienstrobotern und Bildungsanwendungen bereitzustellen.

Google betonte außerdem, dass Gemini-TTS mit anderen Audiomodellen der Gemini 3.1-Serie (wie Gemini 3.1 Flash Live) zusammenarbeitet, um die Fähigkeiten des „Echtzeit-Spracherlebnisses“ weiter zu verbessern. Bei Echtzeitdialogen, Sprachübersetzungen und multimodalen Interaktionen kann das System eine geringe Latenz aufrechterhalten und gleichzeitig die Sprachausgabe durch Textansagen und Audiomarkierungen fein steuern, sodass KI-Agenten in Szenarien wie Telefonanrufen, Besprechungen und Navigation näher an der natürlichen menschlichen Sprachinteraktion sein können.