DeepL, ein KI-Unternehmen, das für seine Textübersetzungstools bekannt ist, hat heute ein Produktportfolio für die Sprach-zu-Sprache-Übersetzung veröffentlicht, um in den Markt für Echtzeit-Sprachübersetzungen einzusteigen. Es deckt eine Vielzahl von Szenarien wie Online-Meetings, mobile und Web-Gespräche sowie Gruppenkommunikation mit Mitarbeitern an vorderster Front über maßgeschneiderte Anwendungen ab. Gleichzeitig hat DeepL auch eine API für Entwickler und Unternehmen eingeführt, um auf der Grundlage seiner Technologie maßgeschneiderte Sprachübersetzungslösungen für Callcenter und andere Unternehmen zu unterstützen.

Jarek Kutylowski, CEO von DeepL, sagte in einem Interview, dass Sprache nach Jahren der Konzentration auf Textübersetzungen der „natürliche nächste Schritt“ des Unternehmens sei. Er betonte, dass DeepL in der Text- und Dokumentenübersetzung große Fortschritte gemacht habe, im Bereich der Echtzeit-Sprachübersetzung jedoch „noch ein wirklich herausragendes Produkt fehlt“, weshalb sich das Unternehmen für den Einstieg entschieden habe.
Kutlovsky wies darauf hin, dass die Hauptschwierigkeit beim Aufbau eines Echtzeit-Übersetzungsprodukts darin besteht, ein Gleichgewicht zwischen der Reduzierung der Latenz und der Aufrechterhaltung der Genauigkeit zu finden. Unter der sogenannten Verzögerung versteht man den Zeitunterschied zwischen dem Sprechen des Nutzers und dem Abspielen der übersetzten Stimme. In Konferenz- und Dialogszenarien gilt: Je kleiner der Unterschied, desto näher kommt das Kommunikationserlebnis des Benutzers dem „simultanen Dialog“.
In dieser Version führt DeepL Plug-ins für Zoom und Microsoft Teams ein, die es Zuhörern in Remote-Meetings ermöglichen, allen Teilnehmern zuzuhören, die in ihrer Muttersprache sprechen, übersetzte Stimmen in Echtzeit zu hören oder in Echtzeit übersetzte Untertitel auf dem Bildschirm zu lesen. Das Programm befindet sich noch in der frühen Testphase und DeepL lädt Unternehmen ein, sich auf eine Warteliste einzutragen, um als Erste die Funktion auszuprobieren. Darüber hinaus bietet das Unternehmen auch Konversationsprodukte für mobile Endgeräte und Webseiten an, die es Benutzern ermöglichen, persönlich oder aus der Ferne sprachübergreifend zu kommunizieren.
Für Mehrpersonen-Offline- oder Online-Gruppenszenarien wie Schulungen und Seminare ermöglicht DeepL den Teilnehmern, durch Scannen des QR-Codes an derselben Sitzung teilzunehmen, und jeder kann übersetzte Inhalte in der entsprechenden Sprache auf seinem eigenen Gerät erhalten. DeepL sagte, dass seine Speech-to-Speech-Technologie auch benutzerdefiniertes Vokabular wie Branchenbegriffe, Firmennamen und Personennamen lernen und anpassen kann, um den Einsatz in beruflichen Szenarien zu verbessern.
Kutlovsky glaubt, dass KI in den nächsten Jahren die Form der Kundendienstbranche verändern wird. Eine hochwertige Übersetzungsschicht kann Unternehmen dabei helfen, in einem Markt, in dem es an lokalen Sprachtalenten mangelt und die Rekrutierungskosten hoch sind, weiterhin mehrsprachige Serviceunterstützung anzubieten. Im Rahmen dieser Vision hofft DeepL, dass seine Sprachtechnologie nicht nur für Konferenzszenarien geeignet ist, sondern auch zu einer der grundlegenden Sprachinfrastrukturen für Kundendienstzentren und globale Unternehmen wird.
Zur technischen Roadmap sagte DeepL, dass seine aktuellen Produkte auf einem selbst entwickelten vollständigen „Speech-to-Speech“-Technologie-Stack basieren, zum jetzigen Zeitpunkt jedoch noch der dreistufige Prozess „Speech-to-Text – Textübersetzung – Text-to-Speech“ verwendet wird. Das Unternehmen ist davon überzeugt, dass seine langfristige Fokussierung auf Textübersetzungen ihm einen Vorteil bei der allgemeinen Übersetzungsqualität verschafft. Zukünftig plant DeepL die Entwicklung eines End-to-End-Sprachübersetzungsmodells, das Textzwischenschritte weglässt, um weitere Verbesserungen bei Latenz und Natürlichkeit zu erreichen.
Im Bereich Sprache und Übersetzung steht DeepL im Wettbewerb mehrerer Startups. Unter anderem hat Sanas letztes Jahr 65 Millionen US-Dollar von Quadrille Capital und Teleperformance eingesammelt. Der Schwerpunkt liegt auf einer Technologie, die den Akzent von Sprechern in Echtzeit ändert, hauptsächlich für Callcenter-Agenten. Camb.AI mit Hauptsitz in Dubai bietet Sprachsynthese- und Übersetzungsdienste für Medien- und Unterhaltungsunternehmen und unterstützt Kunden bei der Synchronisierung und Lokalisierung umfangreicher Inhalte. Palabra, investiert vom Fonds Seven Seven Six von Reddit-Mitbegründer Alexis Ohanian, entwickelt eine Echtzeit-Sprachübersetzungs-Engine, die den Schwerpunkt darauf legt, die ursprünglichen Stimmeigenschaften des Sprechers während des Übersetzungsprozesses beizubehalten und so eine direktere Konkurrenzbeziehung zu den von DeepL entwickelten Funktionen aufzubauen.
Nachdem DeepL auf dem Markt für Textübersetzungen Fuß gefasst hat, versucht es, seine Grenzen durch Sprachprodukte zu erweitern und die Technologie auf Konferenzzusammenarbeit, Kundenservice und Einsatzszenarien an vorderster Front auszudehnen. Da immer mehr Unternehmen versuchen, KI zu nutzen, um die Kosten für die sprachübergreifende Kommunikation zu senken, wird erwartet, dass die Sprachübersetzung in Echtzeit zum Mittelpunkt einer neuen Wettbewerbsrunde wird, und DeepL beschleunigt seinen Einsatz auf diesem Weg.