Das augenöffnende ChatGPT ist wirklich augenöffnend

Gönnen Sie sich einen Urlaub. ChatGPT wird so schnell aktualisiert, dass die Fantasie der Internetnutzer nicht mithalten kann. Am Montag kündigte ChatGPT ein großes Update mit umfassenden multimodalen Funktionen an. Wenn Sie in Zukunft auf dem Heimweg von der Arbeit mit dem gemeinsam genutzten Fahrrad das Gefühl haben, dass mit dem Fahrrad etwas nicht stimmt, können Sie ein Foto des Teils machen und direkt nachfragen.

Dann kommen Sie nach Hause und schauen sich Ihre ahnungslose Kühlschranksammlung an, und ChatGPT kann Ihnen sagen, welche Artikel Sie zum Abendessen auswählen sollen.

Wenn Sie nach dem Essen und Zubettgehen immer noch nicht müde sind, kann es Ihnen auch einige ASMR-Dienste anbieten, wenn Sie es satt haben, diese Blogger auf Bilibili oder YouTube zu hören.

Im September 1985 starb Calvino, der „Unsichtbare Städte“ schrieb, an einem plötzlichen Schlaganfall. Im Sommer dieses Jahres suchte er wegen Kopfschmerzen einen Arzt auf. Der Chirurg sagte, er habe noch nie ein so komplexes und empfindliches Gehirn gesehen.

ChatGPT begann als unglaublich schönes Gehirn – und unsichtbar – aber jetzt hat es endlich Augen, Ohren und einen Mund.

Internetnutzer auf der ganzen Welt: Kommt, lasst uns Gesten machen.

Quelle: Twitter

Jemand hat es ausprobiert und es kann grundsätzlich die Entwicklung von Softwareprojekten für andere übernehmen.

Die Geburt eines Softwareprojekts läuft ungefähr so ab: Zeichnen Sie zunächst ein Drahtmodell auf das Whiteboard, klären Sie die Anordnungslogik, beginnen Sie dann mit dem Schreiben von Code und generieren Sie schließlich die Schnittstelle. In dieser Angelegenheit gehört nun die Arbeit am Whiteboard Ihnen, und das Verlassen des Whiteboards gehört Ihnen.

Ein Entwickler machte ein Foto seines Wireframes und warf es an ChatGPT, das die Software direkt schrieb.

Er spielte auch einige kleine Tricks, wie zum Beispiel das Ersetzen der Position der Anordnung durch unregelmäßige Pfeile. ChatGPT hat es nicht nur gesehen, sondern auch akzeptiert.

Wir unterschätzen wahrscheinlich immer noch, was Multimodalität bringen wird.

Die Entwicklung von künstlicher Intelligenz und menschlicher Intelligenz ist hier gegensätzlich. Der Mensch hat zunächst Augen, und nachdem er die Welt gesehen hat, entwickelt er Sprache und Logik, die wiederum die Welt, die er sieht, besser beschreiben und verstehen können. Die Verbesserung der menschlichen Intelligenz in den letzten 6 Millionen Jahren hat sich zu einem riesigen Ofen für maschinelles Lernen entwickelt.

ChatGPT verfügt bereits über das beste Intelligenzniveau und kann viele Dinge verstehen. Was es einschränkt, ist die Komprimierung von Informationen durch Text, die es unmöglich macht, auf komplexere Probleme zuzugreifen. Was passiert, wenn man einem solchen Gehirn ein Paar Augen gibt? Das heißt, es ist möglich, Bildinformationen direkt zu sehen, und die Fähigkeit, Probleme zu zerlegen, beginnt zu explodieren.

Jemand gab ChatGPT ein Schnittstellendiagramm einer SaaS-Software und forderte es auf, es in kleine Komponenten zu zerlegen und den gesamten Code zu schreiben, was auch geschah.

Sie können ihm sogar einen groben Screenshot der Bearbeitungsoberfläche von Unity geben und ihn bitten, einen Prozess zum Hinzufügen von Modellaktionen bereitzustellen.

Quelle: Twitter

Nach der Eröffnung multimodaler Funktionen sind die Verständnis- und Argumentationsfähigkeiten von ChatGPT intuitiver und sogar ein wenig beängstigend geworden.

Nehmen Sie sich eine Minute Zeit und sehen Sie, ob Sie die Bedeutung dieser Bildergruppe verstehen können:

Quelle: Twitter

Dies ist die Interpretation von ChatGPT:

Quelle: Twitter

„Diese Comicreihe scheint die Bedeutung von Kommunikation, Verständnis und Ausrichtung in einem Team hervorzuheben.“ ChatGPT ist am Ende abgeschlossen.

Dieses Verständnis schockierte Pietro Schirano, einen KI-Ingenieur, der bei Facebook und Uber gearbeitet hatte, und war sprachlos.

Neben den Augen gibt es Ohren und Mund.

Hinter diesem ChatGPT-Upgrade basiert die Spracherkennungsfunktion auf dem Open-Source-Whisper-Modell und die Tonerzeugungsfunktion basiert auf einem zusätzlichen TTS-Modell (Text-to-Speech). Derzeit unterstützt die Sprachsynthese fünf Stimmen, die alle in Zusammenarbeit mit professionellen Synchronsprechern produziert werden.

Aber wenn Sie sehen, wie ChatGPT auf zwei Mobiltelefonen vor Ihnen über sich selbst diskutiert, zum Thema „Hat irgendein Benutzer versucht, mit Ihnen Karaoke zu singen?“ - Es fragt nicht Sie, es fragt einen anderen - es scheint seiner Zeit etwas zu voraus zu sein.

Darüber hinaus scheint es das Potenzial zu haben, Psychiater zu werden. Lilian Weng, ein Mitglied des OpenAI-Sicherheitsteams, führte ein sehr emotionales privates Gespräch mit ChatGPT im Sprachmodus und sprach über Stress und Work-Life-Balance.

„Das Lustige ist, ich fühle mich gehört und gewärmt“, sagte Lilian Weng auf Twitter. Sie schlug vor, dass es besser sei, die empfindlichere Seite auszuprobieren, wenn man es nur als Produktivitätswerkzeug verwende.

Quelle: Twitter

Was die Entwicklung von ChatGPT selbst betrifft, so schafft die Öffnung der im Jahr 2022 trainierten multimodalen Fähigkeiten auch eine neue Grundlage für die zukünftige Entwicklung.

ChatGPT-Chefarchitekt John Schulman sagte vor einem Monat in einem Podcast von Pieter Abbeel (John Schulmans Mentor, als er sich während seiner Doktorarbeit an der University of California in Berkeley auf Reinforcement Learning konzentrierte), dass er das Gefühl habe, dass die Leistungsverbesserungen, die durch vorhandene Daten- und Modellskalierungsmethoden erzielt werden, nach einiger Zeit an ihre Grenzen stoßen könnten. Danach werden die Verbesserungen, die durch Algorithmen, Datensätze, Datensatzgrößen und Rechenleistung erzielt werden, allmählich abnehmen.

„Das Hinzufügen multimodaler Fähigkeiten wird also enorme Leistungsverbesserungen mit sich bringen. Dadurch kann das Modell Wissen erlangen, das nicht aus Text gewonnen werden kann, und möglicherweise Aufgaben meistern, die reine Sprachmodelle nicht erfüllen können. Beispielsweise können Modelle enorme Vorteile daraus ziehen, Videos anzusehen, die mit der physischen Welt oder sogar mit Computerbildschirmen interagieren. Sämtliche Software ist für Menschen konzipiert, und wenn das Modell Pixel beobachten und das Video verstehen kann, können wir alle Arten vorhandener Software verwenden oder den Menschen bei deren Verwendung helfen. Wenn wir dem Modell neue Fähigkeiten verleihen und es dem Modell ermöglichen, mit neuen Dingen zu interagieren, werden die tatsächlichen Fähigkeiten von erheblich verbessert.“ das Modell.“

Was kann ChatGPT nächsten Monat also tun? Ich freue mich so sehr darauf.