Google hat heute eine neue Open-Source-Übersetzungsmodellfamilie, TranslateGemma, veröffentlicht, die auf seinem neuesten Open-Source-Gewichtsmodell Gemma 3 basiert und offiziell als „ein wichtiger Schritt zur Erschließung des Übersetzungsbereichs“ bezeichnet wird. Der erste Stapel unterstützt bis zu 55 Sprachen und deckt gängige Sprachen wie Spanisch, Französisch, Chinesisch und Hindi ab.

Der Zeitpunkt dieser Veröffentlichung folgt eng der Dynamik der Wettbewerber: Erst vor wenigen Stunden hatte OpenAI das ChatGPT-Übersetzungstool auf den Markt gebracht, das sich auf Ton- und Kontextkontrolle konzentriert. Durch eine zweispaltige Benutzeroberfläche und automatische Spracherkennung versucht es, traditionelle Übersetzungsdienste wie Google Translate in Bezug auf Benutzererfahrung und Kontextverständnis herauszufordern. Im Gegensatz dazu legt TranslateGemma mehr Wert auf offene Modellfunktionen und die allgemeine Übersetzungsqualität bei mehreren Benchmarks.

Die TranslateGemma-Familie ist derzeit in drei Größen verfügbar: 4 Milliarden, 12 Milliarden und 27 Milliarden Parameter. Die von Google bereitgestellten Bewertungsergebnisse zeigen, dass TranslateGemma 12B beim WMT24++-Benchmark die Basisversion von Gemma 3 27B übertraf. Dies bedeutet, dass mit weniger als der Hälfte der Parameteranzahl ein höherer Durchsatz und eine geringere Latenz erreicht werden kann, während gleichzeitig die Übersetzungsgenauigkeit beibehalten oder sogar verbessert wird, was für Entwickler bei der Bereitstellung hochwertiger Übersetzungsmodelle in Umgebungen mit begrenzter Rechenleistung von Vorteil ist.

In Bezug auf Bereitstellungsszenarien sagte Google, dass das 4B-Modell für mobile Inferenz optimiert sei und für die lokale Ausführung auf Endgeräten wie Mobiltelefonen geeignet sei; das 12B-Modell orientiert sich an lokalen Rechenleistungsszenarien wie Consumer-Laptops; und das 27B-Modell erfordert eine stärkere Rechenleistungsunterstützung, wie z. B. Cloud-Einzelkarten-NVIDIA H100 und andere Konfigurationen. Beim Vistra-Benchmark für die Bildübersetzung erzielte TranslateGemma auch bessere Ergebnisse bei der Textübersetzungsaufgabe innerhalb des Bildes, obwohl es nicht speziell auf dieses Szenario abgestimmt war, was das Potenzial des Modells für das multimodale Textverständnis demonstriert.

Google gab bekannt, dass die Leistungsverbesserung von TranslateGemma auf einem zweistufigen Trainingsprozess beruht. Die erste Stufe ist die überwachte Feinabstimmung. Das Forschungsteam führte eine große Menge menschlicher Übersetzungskorpus auf Basis des Gemma-3-Basismodells ein und kombinierte es mit hochwertigen synthetischen Daten, die vom Gemini-Modell für das Training generiert wurden. Die zweite Stufe nutzt Reinforcement Learning, um die Optimierung der Übersetzungsqualität durch eine Reihe von Belohnungsmodellen zu steuern, darunter MetricX-QE, AutoMQM und andere erweiterte Indikatoren, wodurch das Modell natürlicher und kontextueller für die Übersetzungsausgabe geeignet wird.

Derzeit steht die gesamte Palette der TranslateGemma-Modelle auf den Plattformen Kaggle und Hugging Face zum Download bereit, damit Forscher und Entwickler frei experimentieren und entwickeln können. Während OpenAI die Übersetzung weiter in chatbasierte Front-End-Produkte integriert, bietet Google mehr technische Optionen für die Anwendungskonstruktion von Drittanbietern, indem es leistungsstarke zugrunde liegende Modelle öffnet, was auch darauf hindeutet, dass der Weg der maschinellen Übersetzung den Wettbewerb auf den beiden Ebenen offener Modelle und serviceorientierter Tools intensivieren wird.

Verwandte Artikel:

ChatGPT Translate ist online: OpenAI startet eine neue Runde von Herausforderungen für Google Translate