Am 9. April brachte ByteDance Seeduplex auf den Markt, ein groß angelegtes natives Vollduplex-Sprachmodell, das nun vollständig in der Doubao-App eingeführt wurde. Dieses Modell basiert auf einem neuen Rahmendesign „Gleichzeitig zuhören und sprechen“. Im Vergleich zum Halbduplex-End-to-End-Sprachmodell der vorherigen Generation wird eine Echtzeitinteraktion von gleichzeitigem Zuhören und Sprechen erreicht und der Gesprächsrhythmus, die Natürlichkeit und die Entstörungsfähigkeit verbessert.

Laut der offiziellen Einführung hat Seeduplex technische Herausforderungen wie Verzögerungen und Stabilität bei hoher Parallelität durch Innovation in der Modellarchitektur und Trainingsoptimierung überwunden. Im Hinblick auf eine präzise Entstörung ist das Modell in der Lage, kontinuierlich zu „hören“, die akustische Umgebung, in der sich der Benutzer befindet, zu verstehen und Hintergrundgeräusche und irrelevante Gespräche präzise zu ignorieren. In komplexen Szenarien werden die Rate falscher Antworten und die Rate falscher Unterbrechungen im Vergleich zum Halbduplex-Modell um 50 % reduziert. Im Hinblick auf eine dynamische Entscheidungsfindung kombiniert das Modell sprachliche und semantische Merkmale, um die Absicht des Benutzers umfassend zu ermitteln. Es kann geduldig zuhören, wenn der Benutzer zögert, und schnell reagieren, nachdem der Benutzer mit dem Sprechen fertig ist. Der Anteil präventiver Anrufe wird im Vergleich zum Halbduplex-Modell um 40 % reduziert und die Entscheidungsleistung um 8 % verbessert.

Die mehrdimensionale Auswertung zeigt, dass Seeduplex hinsichtlich der Gesprächsflüssigkeit und des Gesprächsrhythmus deutlich besser ist als die herkömmliche Halbduplex-Lösung und die Sprachanruffunktion der gängigen Apps in der Branche. Dieses Modell war das erste in der Branche, das in großem Maßstab implementiert wurde und Hunderten Millionen Benutzern ein kontinuierlich hochwertiges Sprachinteraktionserlebnis in Echtzeit bieten kann.