Die meisten Änderungen von OpenAI an ChatGPT betreffen die Fähigkeiten des KI-Bots: die Fragen, die er beantworten kann, die Informationen, auf die er zugreifen kann, und verbesserte zugrunde liegende Modelle. Dieses Mal wird jedoch die Art und Weise, wie Sie ChatGPT selbst verwenden, optimiert. Das Unternehmen bringt eine neue Version seines Dienstes auf den Markt, mit der Sie einen KI-Bot nicht nur durch die Eingabe von Sätzen in ein Textfeld, sondern auch durch lautes Sprechen oder Hochladen eines Bildes ansprechen können.
Laut OpenAI werden die neuen Funktionen innerhalb der nächsten zwei Wochen für Benutzer bereitgestellt, die für ChatGPT bezahlen, und auch andere Benutzer werden die neuen Funktionen „bald danach“ erhalten.
Der Voice-Chat-Teil fühlt sich sehr vertraut an: Sie klicken auf eine Schaltfläche und sprechen Ihre Frage, ChatGPT wandelt sie in Text um und speist sie in ein großes Sprachmodell ein, das dann die Antwort erhält, sie in Sprache umwandelt und die Antwort laut vorspricht. Es fühlt sich an, als würde man mit Alexa oder Google Assistant sprechen, nur hofft OpenAI, dass die Antworten dank Verbesserungen der zugrunde liegenden Technologie besser werden. Die meisten virtuellen Assistenten scheinen sich bei ihrer Transformation auf LLM zu verlassen, aber OpenAI ist führend.
Das hervorragende Whisper-Modell von OpenAI erledigt einen Großteil der Speech-to-Text-Arbeit, und das Unternehmen bringt ein neues Text-to-Speech-Modell auf den Markt, das laut eigenen Angaben „menschliches Audio aus Text und einigen Sekunden Sprachbeispielen erzeugen kann“. Sie können die Stimme von ChatGPT aus fünf Optionen auswählen, aber OpenAI scheint zu glauben, dass das Modell Potenzial für viel mehr als das hat. OpenAI arbeitet beispielsweise mit Spotify zusammen, um Podcasts in andere Sprachen zu übersetzen und gleichzeitig die Stimme des Podcasts beizubehalten. Es gibt viele interessante Einsatzmöglichkeiten für synthetisierte Sprache und OpenAI könnte ein wichtiger Teil der Branche werden.
Aber die Tatsache, dass es nur wenige Sekunden Audio braucht, um eine leistungsfähige synthetische Stimme aufzubauen, öffnet auch die Tür zu einer Vielzahl problematischer Anwendungsfälle. „Diese Funktionen bringen auch neue Risiken mit sich, etwa die Möglichkeit, dass böswillige Akteure sich als Persönlichkeiten des öffentlichen Lebens ausgeben oder Betrug begehen. Aus diesem Grund nutzt OpenAI dieses Modell nicht allgemein: Es wird strenger kontrolliert und auf bestimmte Anwendungsfälle und Partnerschaften beschränkt“, sagte das Unternehmen in einem Blogbeitrag, in dem es die neuen Funktionen ankündigte.
Die Bildersuche ähnelt mittlerweile ein wenig Google Lens. Sie machen einfach ein Foto von dem, was Sie interessiert, und ChatGPT wird herausfinden, was Ihr Problem ist, und entsprechend reagieren. Sie können auch die Zeichenwerkzeuge der App verwenden, um Ihre Fragen klar auszudrücken oder Fragen basierend auf Bildern zu sprechen oder einzugeben. Hier hilft der Hin- und Her-Charakter von ChatGPT: Sie können den Bot auffordern und gleichzeitig Ihre Antwort verfeinern, anstatt zuerst zu suchen und dann erneut zu suchen, nachdem Sie die falsche Antwort erhalten haben. (Dies ist sehr ähnlich zu dem, was Google mit der multimodalen Suche macht).
Natürlich birgt die Bildersuche auch potenzielle Probleme. Eines davon könnte passieren, wenn Sie einen Chatbot mit einer Person beauftragen: OpenAI sagt, dass es aufgrund von Genauigkeits- und Datenschutzbedenken absichtlich die „Fähigkeit von ChatGPT, Personen zu analysieren und direkt anzugeben“ einschränkt. Das bedeutet, dass eine der Science-Fiction-Visionen künstlicher Intelligenz – die Fähigkeit, eine Person anzusehen und zu sagen: „Wer ist das?“ – nicht so schnell verwirklicht wird. Und vielleicht ist das auch gut so.
Fast ein Jahr nach der ersten Veröffentlichung von ChatGPT versucht OpenAI offenbar immer noch herauszufinden, wie es mehr Funktionen und Fähigkeiten für seinen Bot bereitstellen kann, ohne neue Probleme und Nachteile mit sich zu bringen. Bei diesen Versionen versucht das Unternehmen dies zu erreichen, indem es den Funktionsumfang seiner neuen Modelle bewusst einschränkt. Aber dieser Ansatz wird nicht ewig funktionieren. Da immer mehr Menschen Sprachsteuerung und Bildsuche nutzen und ChatGPT sich zu einem wirklich multimodalen, nützlichen virtuellen Assistenten entwickelt, wird es immer schwieriger, Leitplanken aufrechtzuerhalten.