Am Mittwoch gab OpenAI gerade die Aufhebung des Verbots der multimodalen Funktionen von ChatGPT bekannt. Sobald es online geht, werden die Internetnutzer sofort verrückt. Schauen wir uns als Nächstes an, wie stark die Bilderkennungsfunktionen von ChatGPT sind.
01
Machen Sie ein Foto und laden Sie es hoch. Der Code wird sofort generiert
Ein Internetnutzer hat während eines Meetings ein Video aufgenommen und ein Whiteboard-Bild hochgeladen und dann ChatGPT gebeten, den Code zu schreiben.
Sie können auch eine handgezeichnete Skizze hochladen und ChatGPT bitten, eine Webseite in HTML zu erstellen.
Wow, wusch, der Code kam jede Minute heraus.
Dies ist einfach die multimodale Fähigkeit, die Greg Brockman demonstriert hat, als GPT-4 dieses Jahr gerade veröffentlicht wurde.
Machen Sie als weiteres Beispiel ein Foto Ihres todolist-Notizbuchs.
Dann ließ GPT-4 eine PythonTkinterGUI erstellen und dann wurde sie implementiert ...
02
Alte Schriftrollenmanuskripte, auf einen Blick übersetzt
Hier ist eine weitere Manuskriptzeichnung des Alchemisten Robert Boyle aus dem 17. Jahrhundert. Kann GPT-4 es lesen?
Das ist ein Kinderspiel dafür.
In z.B. „Katalanisches medizinisches Handbuch über medizinische Mumien“.
ChatGPT kann auch transkribieren und übersetzen.
Benjamin Breen, außerordentlicher Professor für Geschichte an der UCSC, sagte:
Dies wird erhebliche Auswirkungen auf Historiker haben. Stellen Sie sich ein benutzerdefiniertes multimodales GPT-4 vor, das auf einen bestimmten Satz von Manuskripten trainiert wird. Es kann nicht nur transkribieren, sondern auch übersetzen und klassifizieren. (Das Schreiben ohne LLM ist meiner Meinung nach eine große Sache).
03
Die Chartzusammenfassung ist ebenfalls sehr gut 6
Sie können GPT-4 auch anweisen, Daten basierend auf dem Diagramm zu extrahieren.
Anschließend kann Python-Code erstellt werden, um das Diagramm zu replizieren und es diagrammähnlicher zu machen.
Werfen Sie dann das Aktientrenddiagramm darauf, und es kann auch die Merkmale analysieren und zusammenfassen.
04
Das Lesen von Bildern „hat einen überlegenen IQ“
Geben Sie GPT-4 ein abstraktes Bild.
Es kann tatsächlich die Metapher der „Bedeutung der Kommunikation“, die diese vier Bilder ausdrücken wollen, genau identifizieren. Das ist empörend.
GPT-4V kann sogar die Handschrift von Ärzten lesen.
Einige japanische Internetnutzer nutzten direkt Sun Wukong aus „Dragon Ball“, um den ChatGPT-Test zu absolvieren.
Es gibt auch verschiedene „Sind Sie ein Mensch“-Verifizierungscodes.
Laden Sie ein Stück Ihrer eigenen Arbeit hoch, und GPT-4 kann Ihnen auch Verbesserungsvorschläge machen.
Einige Internetnutzer stellten fest, dass GPT-4V im Kosmos-1-Papier die richtige Antwort auf diese Frage gab, es gab jedoch einen Fehler im Argumentationsprozess.
Mit dieser Funktion müssen Kinder keine Hausaufgaben mehr machen.
05
Die große Zusammenfassung der Internetnutzer
Zusätzlich zu den oben genannten Erfahrungen haben einige Internetnutzer einen langen Artikel geschrieben, in dem sie ihren eigenen Test von GPT-4V vorstellen.
Testen Sie eins:Visuelle Fragen und Antworten
Geben Sie mir ein Emoticon und sehen Sie, wie gut GPT-4V es versteht?
GPT-4V erklärt erfolgreich, warum es interessant ist und erwähnt die einzelnen Komponenten des Bildes und wie sie miteinander verbunden sind.
Es ist erwähnenswert, dass GPT-4V in der Lage ist, die bereitgestellten Kommentare in Klammern zu lesen und darauf zu reagieren.
Dennoch hat GPT-4V einen Fehler gemacht und es als „NVIDIABURGER“ statt als „GPU“ bezeichnet.
Testen Sie es dann noch einmal mit einer Münze, einem Foto eines amerikanischen Pennys. GPT-4V ist in der Lage, Herkunft und Nennwert der Münze erfolgreich zu identifizieren.
Aber wenn es sich um ein Bild mit mehreren Münzen und der Frage GPT-4V handelt, wie viel Geld habe ich dann?
Zu diesem Zeitpunkt kann nur die Anzahl der Münzen ermittelt werden, nicht jedoch der Währungstyp.
Test 2: OCR-Erkennung
Erfassen Sie Textbilder von Webseiten und laden Sie sie hoch. GPT-4V kann den Inhalt sehr gut lesen.
Test 3: Mathe-OCR
Mathematische OCR ist eine spezielle Form der optischen Zeichenerkennung, die auf mathematische Gleichungen abzielt.
Ein Internetnutzer stellte GPT-4V ein mathematisches Problem und präsentierte es in Form eines Screenshots des Dokuments.
Bei diesem Problem geht es darum, die Länge einer Reißverschlusslinie bei 2 Winkeln zu berechnen, mit der Aufforderung „Lösen“ im Bild.
Das Modell identifiziert Probleme, die mithilfe der Trigonometrie gelöst werden können, identifiziert die zu verwendenden Funktionen und bietet eine schrittweise Anleitung zur Lösung des Problems. GPT-4V liefert dann die richtige Antwort auf die Frage.
Allerdings gibt die GPT-4V-Systemkarte an, dass dem Modell möglicherweise mathematische Symbole fehlen.
Verschiedene Tests, einschließlich Tests mit handschriftlich auf Papier geschriebenen Gleichungen oder Ausdrücken, können darauf hinweisen, dass ein Modell nicht in der Lage ist, mathematische Fragen zu beantworten.
Test 4: Objekterkennung
Lassen Sie GPT-4V einen Hund in einem Bild erkennen und x_min-, y_min-, x_max- und y_max-Werte in Bezug auf die Position des Hundes bereitstellen. Die von GPT-4V zurückgegebenen Begrenzungsrahmenkoordinaten stimmen nicht mit der Position des Hundes überein.
Obwohl GPT-4V bei der Beantwortung von Bildfragen sehr leistungsfähig ist, kann dieses Modell die Feinabstimmung von Objekterkennungsmodellen nicht ersetzen, wenn Sie wissen möchten, wo sich ein Objekt im Bild befindet.
Test 5: Bestätigungscode
Es wurde festgestellt, dass GPT-4V Bilder mit Verifizierungscodes erkennen kann, den Test jedoch häufig nicht bestand.
In einem Beispiel für die Auswahl von Ampelgittern wählte GPT-4V weniger Gitter mit Ampeln aus.
Test 6: Kreuzworträtsel und Sudoku
Im Sudoku-Test erkannte GPT-4V das Spiel, verstand jedoch die Struktur des Bretts falsch und lieferte daher ungenaue Ergebnisse.
Übrigens ist die ChatGPT-Netzwerkfunktion zurück.