Amazon bringt NovaSonic auf den Markt, eine neue Generation generativer KI-Sprachmodelle und markiert damit einen großen Durchbruch auf dem Gebiet der künstlichen Intelligenz.Dieses innovative Modell kann Spracheingaben nativ verarbeiten und eine natürliche und flüssige Sprachausgabe erzeugen. In Bezug auf zentrale Leistungsindikatoren wie Geschwindigkeit, Spracherkennungsgenauigkeit und Dialogqualität hat es ein Niveau erreicht, das mit den hochmodernen Sprachmodellen von Technologiegiganten wie OpenAI und Google vergleichbar ist.

NovaSonic bietet Dienste über die Entwicklerplattform Amazon Bedrock an und nutzt eine innovative bidirektionale Streaming-API-Schnittstelle, um starke Unterstützung für die Entwicklung von KI-Anwendungen auf Unternehmensebene zu bieten.Amazon betonte ausdrücklich, dass dieses Modell erhebliche Kosteneffizienzvorteile bietet und sein Preis etwa 80 % günstiger ist als der GPT-4o von OpenAI. Es kann als die kostengünstigste KI-Sprachlösung auf dem Markt bezeichnet werden.

Im Vergleich zu konkurrierenden KI-Sprachmodellen zeichnet sich NovaSonic durch die Weiterleitung von Benutzeranfragen an verschiedene APIs aus. Dank dieser Fähigkeit weiß NovaSonic, wann Echtzeitinformationen aus dem Internet abgerufen, proprietäre Datenquellen analysiert oder Maßnahmen in externen Anwendungen ergriffen werden müssen, und kann die entsprechenden Tools verwenden, um die Aufgabe abzuschließen.

Bei einem Zwei-Wege-Gespräch wartet NovaSonic auf den „richtigen Moment“ zum Sprechen und berücksichtigt dabei die Pausen und Unterbrechungen des Sprechers.Darüber hinaus kann NovaSonic auch Textaufzeichnungen für die Sprache der Benutzer generieren und Entwickler können diese Texte für verschiedene Anwendungsszenarien verwenden.

Rohit Prasad, Chefwissenschaftler der AGI-Abteilung von Amazon, gab bekannt, dass einige der Technologien von NovaSonic im verbesserten digitalen Assistenten Alexa+ zum Einsatz kamen. Die Einführung dieses Modells ist ein wichtiger Schritt in der Strategie von Amazon, künstliche allgemeine Intelligenz (AGI) aufzubauen. In Zukunft werden auch KI-Modelle auf den Markt kommen, die das multimodale Verständnis unterstützen und Bilder, Videos und andere Daten zur Wahrnehmung der physischen Welt abdecken.