Am Montagabend, Pekinger Zeit, veröffentlichte OpenAI, ein bekanntes Startup auf dem Gebiet der künstlichen Intelligenz, einen Bericht mit dem Titel „
(Quelle: OpenAI)
ChatGPT hat zuvor eine „Code-Interpreter“-Funktion eingeführt, die Bilder hochladen kann, und verfügt über einige vorläufige Funktionen zur Verarbeitung von Bildern und Textfotos. Aber es besteht kein Zweifel daran, dass das heutige „Fotos machen und Fragen stellen“ eher den Nutzungsszenarien der meisten Benutzer für KI-Assistenten entspricht.
In der Reihenfolge des Titels gibt es heute zwei Hauptfunktionen, die aktualisiert wurden:
Lassen Sie uns zunächst über die Bild-Chat-Funktion sprechen, die viel Aufmerksamkeit erregt hat. Laut OpenAI können Benutzer jetzt
Im offiziellen Beispiel erhält ChatGPT eine
Dann tat der Beamte so, als hätte er es nicht verstanden und machte ein Foto des Bolzens.
Dann machte der Beamte ein weiteres Foto des Werkzeugkastens und fragte ChatGPT, um welchen Schraubenschlüssel es sich handelte. ChatGPT hat den Schraubenschlüssel auch erfolgreich erkannt und dem Benutzer genau gesagt, welche Größe er nehmen soll.
Darüber hinaus bündelt OpenAI auch Spracherkennungs-, Transkriptions- und Audiogenerierungsfunktionen und startet
Laut OpenAI nutzt diese Funktion das Open-Source-Spracherkennungssystem Whisper, um das, was der Benutzer sagt, in Text umzuwandeln. Es verwendet außerdem ein neues Text-to-Speech-Modell und arbeitet mit professionellen Synchronsprechern zusammen, um den Benutzern fünf Stimmen zur Auswahl zu bieten.
Laut OpenAI ist seine neue Sprachtechnologie in der Lage, aus nur wenigen Sekunden echter Sprache realistische synthetische Stimmen zu erzeugen. Diese Fähigkeit öffnet der Kreativität Tür und Tor, schafft aber auch neue Risiken – etwa die Möglichkeit, dass Kriminelle sich als Persönlichkeiten des öffentlichen Lebens ausgeben, um Betrug zu begehen. Die Entscheidung von OpenAI besteht daher darin, diese Funktion über bestimmte Anwendungsfälle wie „Voice-Chat“ einzuführen.
Gleichzeitig kooperiert OpenAI auch mit weiteren Institutionen. Zum Beispiel
Bilder bringen auch neue Herausforderungen mit sich, wie zum Beispiel Halluzinationsprobleme und Benutzer, die sich in Hochrisikogebieten auf die Modellinterpretation von Bildern verlassen. Daher führte OpenAI vor dem Online-Gang auch Risikotests in Bereichen wie Extremismus und wissenschaftlichen Fähigkeiten durch.
Darüber hinaus lohnt es sich für die chinesischen Leser, die diesen Artikel lesen, wahrscheinlich, sich auf das Erlebnis des Bilddialogs zu freuen, der Sprachdialog muss jedoch möglicherweise außer Acht gelassen werden. OpenAI sagte: