OpenAI führt drei Echtzeit-Sprachmodelle ein, die beim Zuhören „denken“, übersetzen und transkribieren können

OpenAI hat heute drei neue Echtzeit-Sprachmodelle veröffentlicht, mit dem Ziel, „eine neue Generation von Sprachanwendungsformularen für Entwickler freizuschalten“. Diese drei Sprachintelligenzmodelle konzentrieren sich auf unterschiedliche Szenarioanforderungen wie Argumentationsdialog, Echtzeitübersetzung und Echtzeittranskription.

Nach Angaben von OpenAI umfasst die neue Serie drei Modelle: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Unter ihnen ist GPT-Realtime-2 das erste Sprachmodell mit Argumentationsfunktionen auf GPT-5-Ebene, das komplexe Anfragen besser verarbeiten und Gespräche weiterhin auf natürlichere Weise vorantreiben kann. Laut der offiziellen Einführung ist dieses Modell speziell für die Sprachinteraktion in Echtzeit konzipiert. Wenn Benutzer Fragen stellen oder Anweisungen erteilen, können sie argumentieren und gleichzeitig ein zusammenhängendes Gespräch führen. Gleichzeitig können sie auch Tools aufrufen, Benutzerunterbrechungen und -korrekturen bearbeiten und je nach aktueller Situation angemessenere Antworten geben.

Das zweite Modell, GPT-Realtime-Translate, konzentriert sich auf Echtzeit-Übersetzungsfunktionen, unterstützt „mehr als 70 Eingabesprachen und 13 Ausgabesprachen“ und versucht, während des Übersetzungsprozesses mit der Sprechgeschwindigkeit des Sprechers Schritt zu halten. Diese Funktion bedeutet, dass dieses Modell in Szenarien wie sprachenübergreifenden Anrufen, Besprechungen oder Live-Übertragungen ein Erlebnis bieten soll, das dem „Simultandolmetschen“ näher kommt.

Der dritte GPT-Realtime-Whisper ist ein Echtzeit-Streaming-Sprachtranskriptionsmodell, das sich auf Sprach-zu-Text-Funktionen mit geringer Latenz konzentriert. Laut OpenAI kann das Modell die Transkription sofort abschließen, während der Sprecher spricht, wodurch verschiedene Echtzeitprodukte schneller, reaktionsschneller und natürlicher erscheinen. Von Live-Untertiteln „Sprechen während des Sprechens“ bis hin zu Besprechungsaufzeichnungen, die mit dem Tempo der Diskussionen mithalten können, gelten solche Anwendungsszenarien als Hauptrichtung von GPT-Realtime-Whisper.

In Bezug auf Zugriffsmethoden und Preise sagte OpenAI, dass die drei neuen Sprachmodelle in sein Echtzeit-API-System aufgenommen wurden. Der Preis für GPT-Realtime-2 beträgt 32 US-Dollar pro 1 Million Audio-Eingabe-Tokens (0,40 US-Dollar für zwischengespeicherte Eingabe-Tokens) und 64 US-Dollar pro 1 Million Audio-Ausgabe-Tokens. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute, während GPT-Realtime-Whisper 0,017 US-Dollar pro Minute kostet.

OpenAI sagte, dass Entwickler diese neuen Echtzeit-Sprachmodelle direkt über den Playground testen können. Wenn Sie Codex bereits installiert haben, klicken Sie einfach an der entsprechenden Eingabeaufforderung auf „Senden“, um GPT-Realtime-2 zu einer vorhandenen Anwendung hinzuzufügen oder schnell eine neue Anwendung basierend auf dem Modell zu erstellen. Der Beamte stellte auf seiner Website außerdem die technischen Details dieser drei Sprachmodelle vor und erläuterte, wie einige Partnerunternehmen sie in tatsächlichen Produkten verwendet haben.

Im Kontext der Weiterentwicklung der generativen KI hin zu Multimodalität und Echtzeitinteraktion gelten die drei von OpenAI veröffentlichten Sprachmodelle als ein weiterer wichtiger Ansatz in Richtung „Sprachintelligenz“. Durch die einheitliche Integration von Argumentations-, Übersetzungs- und Transkriptionsfunktionen können Entwickler Benutzern einfacher ein Sprach-KI-Erlebnis bieten, das „im Handumdrehen verfügbar“ ist. Von Assistenztools über Produktivitätsanwendungen bis hin zu Inhaltserstellungs- und Barrierefreiheitsdiensten soll es eine neue Runde der Erkundung und Innovation einläuten.