OpenAI hat offiziell den Start des multimodalen ChatGPT angekündigt, das sehen, zuhören und sprechen kann

Am Montagabend, Pekinger Zeit, veröffentlichte OpenAI, ein bekanntes Startup auf dem Gebiet der künstlichen Intelligenz, einen Bericht mit dem Titel „ChatGPT kann jetzt sehen, zuhören und sprechen“-Ankündigung, in der angekündigt wird, dass diese Funktion in den nächsten zwei Wochen an zahlende Benutzer weitergegeben wird. Auf der GPT-4-Pressekonferenz im März dieses Jahres dürfte die schockierendste Szene sein, dass Greg Brockman, der Präsident von OpenAI, ein Stück Notizpapier nahm, eine Skizze zeichnete, ein Foto machte und GPT-4 den Code für diese Website in 10 Sekunden generieren ließ.

(Quelle: OpenAI)

ChatGPT hat zuvor eine „Code-Interpreter“-Funktion eingeführt, die Bilder hochladen kann, und verfügt über einige vorläufige Funktionen zur Verarbeitung von Bildern und Textfotos. Aber es besteht kein Zweifel daran, dass das heutige „Fotos machen und Fragen stellen“ eher den Nutzungsszenarien der meisten Benutzer für KI-Assistenten entspricht.

Machen Sie ein Foto vom Kühlschrank und sagen Sie, was Sie heute Abend essen sollen

In der Reihenfolge des Titels gibt es heute zwei Hauptfunktionen, die aktualisiert wurden:Bildbasierte Gespräche und Echtzeit-Sprachgespräche.

Lassen Sie uns zunächst über die Bild-Chat-Funktion sprechen, die viel Aufmerksamkeit erregt hat. Laut OpenAI können Benutzer jetztMachen Sie ein Foto von Ihrem Kühlschrank und lassen Sie sich von ChatGPT Rezepte empfehlen. auf ReisenMachen Sie ein Foto von einem Wahrzeichen und lassen Sie sich von ChatGPT erzählen, was an dem Ort interessant ist. Natürlich können Sie auch ein Foto von einer Matheaufgabe machen und diese von ChatGPT beantworten lassen.

Im offiziellen Beispiel erhält ChatGPT eineEin Foto vom Fahrrad und gefragt, wie es geworden istSitz abgesenkt. Dann sagte ChatGPT, dass es vom Modell Ihres Autos abhängt. Einige Autos haben Schnellspannstangen, andere werden mit Schrauben befestigt und geben dann detaillierte Schritte an.

Dann tat der Beamte so, als hätte er es nicht verstanden und machte ein Foto des Bolzens.Er umkreiste es zur Hervorhebung mit dem offiziellen Zeichenwerkzeug und fragte dann ChatGPT, ob es sich um einen Schnellspannhebel handele. ChatGPT sagteDa es sich um eine Schraube handelt, müssen Sie einen Inbusschlüssel finden.

Dann machte der Beamte ein weiteres Foto des Werkzeugkastens und fragte ChatGPT, um welchen Schraubenschlüssel es sich handelte. ChatGPT hat den Schraubenschlüssel auch erfolgreich erkannt und dem Benutzer genau gesagt, welche Größe er nehmen soll.

ChatGPT kann sprechen!

Darüber hinaus bündelt OpenAI auch Spracherkennungs-, Transkriptions- und Audiogenerierungsfunktionen und startetAI-Voice-Chat-Funktion, diese Funktion ist nur für iOS- und Android-Clients verfügbar. Beamte sagten, dass Benutzer diese Funktion nutzen können, um Kindern zu Hause Gute-Nacht-Geschichten zu erzählen. Oder wenn Sie zu Hause essen und plötzlich über ein bestimmtes Problem in einen Streit geraten, können Sie ChatGPT auf dem Desktop platzieren, um den Streit beizulegen.

Laut OpenAI nutzt diese Funktion das Open-Source-Spracherkennungssystem Whisper, um das, was der Benutzer sagt, in Text umzuwandeln. Es verwendet außerdem ein neues Text-to-Speech-Modell und arbeitet mit professionellen Synchronsprechern zusammen, um den Benutzern fünf Stimmen zur Auswahl zu bieten.

Fortgeschrittenere KI birgt auch neue Risiken und Einschränkungen

Laut OpenAI ist seine neue Sprachtechnologie in der Lage, aus nur wenigen Sekunden echter Sprache realistische synthetische Stimmen zu erzeugen. Diese Fähigkeit öffnet der Kreativität Tür und Tor, schafft aber auch neue Risiken – etwa die Möglichkeit, dass Kriminelle sich als Persönlichkeiten des öffentlichen Lebens ausgeben, um Betrug zu begehen. Die Entscheidung von OpenAI besteht daher darin, diese Funktion über bestimmte Anwendungsfälle wie „Voice-Chat“ einzuführen.

Gleichzeitig kooperiert OpenAI auch mit weiteren Institutionen. Zum BeispielDas Streaming-Unternehmen Spotify testet diese Funktion für die Sprachübersetzung und hilft Podcast-Hosts dabei, ihre globale Reichweite zu vergrößern, indem sie ihre Stimmen verwenden, um Podcast-Audio in andere Sprachen zu übersetzen.

Bilder bringen auch neue Herausforderungen mit sich, wie zum Beispiel Halluzinationsprobleme und Benutzer, die sich in Hochrisikogebieten auf die Modellinterpretation von Bildern verlassen. Daher führte OpenAI vor dem Online-Gang auch Risikotests in Bereichen wie Extremismus und wissenschaftlichen Fähigkeiten durch.

Darüber hinaus lohnt es sich für die chinesischen Leser, die diesen Artikel lesen, wahrscheinlich, sich auf das Erlebnis des Bilddialogs zu freuen, der Sprachdialog muss jedoch möglicherweise außer Acht gelassen werden. OpenAI sagte:Das Modell kann englischen Text gut transkribieren, schneidet jedoch in einigen anderen Sprachen schlecht ab, insbesondere in solchen, die nicht-lateinische Alphabete verwenden. Nicht-englischsprachigen Benutzern wird daher davon abgeraten, ChatGPT für solche Zwecke zu verwenden.