Google gab auf der diesmonatigen Veranstaltung „Made on YouTube“ bekannt, dass die automatische Synchronisationstechnologie von YouTube ein neues Upgrade eingeläutet hat: die Einführung der KI-Lippensynchronisationsfunktion (Lip-Sync), die darauf abzielt, das seit langem bestehende Problem der „Asynchronität zwischen Ton und Bild“ bei maschinell übersetzten Videoinhalten zu lösen. Die Funktion wird zunächst in 20 Sprachen eingeführt, darunter Englisch, Deutsch, Französisch und Spanisch, weitere Sprachen sollen in den kommenden Monaten folgen.

Es wird berichtet, dass die automatische Synchronisierung und automatische Übersetzung von YouTube für die automatische Wiedergabe von Videotiteln und Audiospuren umstritten ist. Viele Benutzer hoffen auf eine einheitliche Option zum Deaktivieren dieser automatischen Übersetzung und Synchronisierung. Mehrsprachige Benutzer und Bilibili-Ersteller haben berichtet, dass die Qualität von KI-generierten Übersetzungen im Vergleich zu menschlichen Übersetzungen ungleichmäßig ist. Derzeit bietet YouTube keine Funktion zum globalen Deaktivieren der Synchronisierung an. Benutzer müssen die Audiospur manuell für jedes Video anpassen. Dies hat einige Entwickler auch dazu veranlasst, Browser-Plug-ins wie „YouTube Anti-Translate“ zu starten, um automatische Übersetzungs- und Synchronisierungsebenen gezielt zu blockieren.

Der entscheidende Durchbruch dieses Updates besteht darin, dass die KI-Lippensynchronisationsfunktion mithilfe künstlicher Intelligenz die automatisch generierte Audiospur perfekt an die Mundform der Charaktere im Video anpassen kann, wodurch das Erscheinungsbild erheblich verbessert und ein flüssigeres und natürlicheres Videoerlebnis erzielt wird. YouTuber können die Lippensynchronisationsfunktion über YouTube Studio aktivieren. Das erste Pilotprojekt steht Mitgliedern des YouTube-Partnerprogramms offen und Google wird es voraussichtlich in Zukunft auf alle Videos ausweiten.
Bei der mehrsprachigen Synchronisation setzt YouTube auf selbst entwickelte KI-Modelle (u. a. Gemini und Aloud), um mehrsprachige Audiospuren zu generieren, die nicht nur die Emotion und Intonation der Originalstimme des Sprechers wiederherstellen, sondern auch Hintergrundgeräusche und menschliche Stimmen trennen. Laut Google verdreifachte sich die Zahl der nicht-muttersprachlichen Zuschauer, nachdem einige Kanäle die mehrsprachige Synchronisation ermöglichten, was ein starkes Wachstumspotenzial zeigt.
Obwohl die automatische KI-Synchronisation und die Lippensynchronisationstechnologie eine wichtige Rolle bei der Erweiterung des Publikums und der Werbeeinnahmen von YouTubern spielen, gibt es immer noch viele Kontroversen darüber, ob sie die Authentizität des Originalinhalts und das Publikumserlebnis beeinträchtigen. Befürworter glauben, dass dieser Schritt die weltweite Zuschauersicht erleichtert und den Einfluss von Inhalten erhöht; Während Kritiker befürchten, dass die Automatisierung den einzigartigen Stil des Originalwerks beschädigen könnte. Ob die KI-Lippensynchronisation die Lücke zwischen Ideal und Realität vollständig schließen kann, die Branche beobachtet noch ihre Auswirkungen.