Die Intelligenz auf PhD-Niveau von OpenAI ist wirklich realisiert! Ein UCI-Physik-Ph.D. hat o1 tatsächlich getestet und festgestellt, dass der Code für seine Doktorarbeit, für deren Fertigstellung er ein Jahr brauchte, tatsächlich von KI in einer Stunde implementiert wurde. Das o1-Modell ist so leistungsstark, dass es direkt Code für Doktorarbeiten erzeugen kann! Kyle Kabasares, ein Ph.D. in Physik von der University of California, Irvine (UCI), entdeckt nach dem Testen von o1preview+mini:
Er sagte, dass o1 nach etwa sechs Eingabeaufforderungen eine laufende Version des Python-Codes erstellt habe, die den Inhalt des Abschnitts „Methoden“ des Forschungspapiers beschreibe.
Obwohl das KI-generierte Code-Framework die tatsächlichen Codefunktionen von Kabasares simuliert, verwendet es „synthetische Daten“ und handelt es sich nicht um echte astronomische Daten.
Papieradresse: https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta
Allerdings ist es schockierend, dass o1 in so kurzer Zeit komplexe Codes ausgeben kann.
In der unteren rechten Ecke des Videos rief Kabasares wiederholt „Oh mein Gott“ und zeigte dabei verschiedene unbeschreibliche Bewegungen und Ausdrücke, die ihn so schockierten, dass er an seinem Leben zweifelte.
Sobald das YouTube-Video veröffentlicht wurde, löste es heftige Diskussionen im Internet aus, wobei Internetnutzer meinten, es sei zu verrückt.
Was für ein Zufall, dass der IQ-Wert von o1 im neuesten Mensa-IQ-Test die 120-Punkte-Marke überschritten hat.
35 IQ-Fragen, 25 richtig beantwortet, andere Modelle um mehrere Blöcke geschlagen.
Hierbei handelt es sich jedoch lediglich um eine Vorschauversion des o1-Modells.
Der OpenAI-Forscher David Dohan veröffentlichte einmal einen Artikel, in dem er vorschlug, dass es in einem Monat eine neue, aktualisierte Version des o1-Modells geben wird.
Bis dahin wissen wir immer noch nicht, wie großartig die Leistung von O1 sein wird? !
Doktorarbeit in Physik: KI kann in einer Stunde 200 Codezeilen erzeugen
Im Jahr 2022 wird Kabasares, ein Ph.D. in Physik, veröffentlichte diesen Artikel im Astrophysical Journal als Erstautor zur Messung der Masse von Schwarzen Löchern durch Modellierung astronomischer Daten.
Natürlich geht es bei dieser Forschung um mehr als nur das Schreiben von Code, aber die Implementierung dieses Codes war für Dr. Kabasares in seinem ersten Jahr ein entscheidender Durchbruch.
Man kann sagen, dass es im ersten Jahr seiner Doktorarbeit (Juli 2018 – April 2019) viel Zeit gedauert hat, bis die erste Version dieses Codes korrekt lief.
Deshalb konnte o1 innerhalb einer Stunde einen lauffähigen Python-Code erstellen, was Kabasares beeindruckte.
Nachdem Kabasares im Video den von o1 ausgegebenen Code gesehen hatte, hielt er eine Weile inne, bevor er mit der Erklärung begann.
Er stellte ChatGPTo1 den Inhalt des „Methoden“-Teils des Papiers (d. h. Abschnitt 4) zur Verfügung und forderte ihn auf, mein Papier zu lesen und auf der Grundlage der gegebenen Informationen einen Teil Python-Laufcode zu schreiben.
Er betonte mehrfach, dass er o1 seinen Code nicht gezeigt habe.
Auf der ChatGPT-Konversationsseite zeigte Kabasares allen und zählte, dass o1 unter 6 Eingabeaufforderungen 200 Codezeilen abgeschlossen hat.
Allerdings warnte er auch, dass dies tatsächlich einige zusätzliche Arbeit unsererseits erfordert. Genau wie das Kurvendiagramm im Papier muss es in einer anderen Software, beispielsweise Galaxy Image Software, ausgefüllt werden.
Auf die Frage eines Internetnutzers: Ist es für o1 möglich, das Training mit Ihrem eigenen Code abzuschließen?
Kabasares glaubt, dass sich die 200 von o1 ausgegebenen Codezeilen stark von seinen eigenen 1.100 Codezeilen unterscheiden. Dies ist die „einfachste Version“ des Papiercodes.
Late-Night-Test, o1 stellt Fragen der Universitäts- und Doktorandenphysik
Zu diesem Zweck veröffentlichte Kabasares ein zweites Video, um allen zu erklären, dass o1 möglicherweise kein Datentraining erhalten hat.
Erwähnenswert ist, dass es sich bei den privaten Dokumenten, die er vom Büro erhielt, um vom Professor selbst entworfene Probleme der Astrophysik handelte.
Diese Fragen wurden alle von Kabasares während seiner Doktorarbeit beantwortet. und wurden nicht im Internet veröffentlicht.
Er hat speziell für o1 ein Testset mit insgesamt 4 Fragen erstellt.
Mangels Trainingsdaten sind die von o1 ausgegebenen Ergebnisse selbstverständlich. Einige Fragen wurden sogar in nur 16 Sekunden beantwortet.
Denken Sie daran, OpenAICTOMiraMurati sagte in einem Interview, dass neue Modelle nach GPT-4 Intelligenz auf PhD-Niveau erreichen werden.
Die aktuelle Leistung von o1 gibt bereits einen entscheidenden Einblick.
Code-Programmierwettbewerb, Master-Niveau
Als Forschungsdirektor von OpenAI und aktueller Trainer des IOI-US-Teams teilte Mark Chen die neuesten Fortschritte des o1-Modells im Codeforces-Wettbewerb.
Beim gestrigen Echtzeitwettbewerb von Codeforces nutzte ein Spieler namens AryanDLuffy das o1-mini-Modell, um am Wettbewerb teilzunehmen, und die Ergebnisse waren ziemlich erstaunlich.
In den Worten von MarkChen wurde eine „nahezu Meisterleistung“ erreicht.
AryanDLuffy gab an, dass er keine sofortige Entwicklung durchgeführt habe, sondern lediglich eine Problemerklärung abgegeben und das Modell angewiesen habe, C++ zur Lösung des Problems zu verwenden.
Von den 7 Fragen stieß o1-mini nur bei B2, D und E2 auf Schwierigkeiten. Darunter waren D und E2 die beiden Fragen, die viele Top-50-Spieler nicht beantworten konnten. Dies waren auch die beiden Fragen mit den wenigsten Einsendungen.
Am Ende verhalf o1-mini AryanDLuffy zu einer Gesamtpunktzahl von 3922 Punkten und belegte damit Platz 277 unter mehr als 160.000 Teilnehmern, was den besten 0,17 % entspricht.
Dies übertrifft die eigenen Benchmark-Ergebnisse von OpenAI bei weitem. Das o1-Modell übertraf bei seinem simulierten Codeforces-Wettbewerb nur 89 % der menschlichen Konkurrenten.
Das Ranking von 277 hat sich im Vergleich zu AryanDLuffys bisherigem Rekord um 158 Plätze verbessert und damit die größte Verbesserung seit vier Jahren erreicht.
In diesem Zusammenhang glauben MarkChen und viele Internetnutzer, dass die Wettbewerbsfragen von IMO und Codeforces als neue LLM-Benchmark-Tests verwendet werden könnten. Die Organisatoren von Codeforces sind jedoch über etwas anderes besorgt.
Wettbewerbsgründer Mike Mirzayanov hat zu diesem Zweck eigens eine neue Regel formuliert: Es ist verboten, verschiedene Modelle wie GPT, Gemini, Gemma, Llama und Claude zur Lösung von Programmierproblemen im Codeforces-Wettbewerb zu verwenden.
Diese neue Regel verlangt jedoch nicht, dass die Teilnehmer vollständig auf KI verzichten müssen. Sie können das Modell weiterhin bei der Übersetzung der Problemstellung unterstützen lassen oder von Copilot grammatikalische Hilfe und kleinere Codierungsvorschläge einholen.
Kurz gesagt, die Kernlogik und der Algorithmus des Wettbewerbsproblems sowie die Diagnose und Fehlerbehebung von Fehlern müssen von menschlichen Spielern unabhängig durchgeführt werden, und CF führt auch die Betrugserkennung durch. Bei nicht wettbewerbsorientierten Problemen ist der Einsatz von KI-Tools völlig uneingeschränkt möglich.
Einige Benutzer wiesen jedoch darauf hin, dass die Betrugserkennung grundsätzlich schwierig zu implementieren sei und die Teilnehmer sich „der Erkennung entziehen“ könnten, indem sie einfach den von der KI generierten Code modifizieren. Die Zukunft kompetitiver Programmierwettbewerbe wird weitgehend davon abhängen, ob die Teilnehmer selbst ihr Wort halten können.
CF erklärte außerdem, dass es weiterhin auf den Fortschritt der KI-Technologie achten und die Regeln bei Bedarf zeitnah anpassen werde.
In dem Blogbeitrag bezeichnete Mirzayanov den Fortschritt neuronaler Netze als „technisches Wunder“, da diese Modelle vor nicht allzu langer Zeit Schwierigkeiten hatten, die einfachsten Aufgaben in Wettbewerben zu bewältigen, doch jetzt haben sie Höhen erreicht, die nicht ignoriert werden können.
Er sagte: „Wir haben Grund zu der Annahme, dass dieser Fortschritt anhalten wird und die KI möglicherweise weiterhin neue Durchbrüche im Bereich der Programmierwettbewerbe erzielen wird.“
Tao Zhexuans eigentlicher Testnachtrag
Zusätzlich zu Codeforces sagte Tao Zhexuan auch, dass aufgrund des großen Interesses aller an seinen früheren Tests
Das erste Experiment besteht darin, Terminologie zu finden.
Heute, 14 Jahre später, stellte Tao Zhexuan dem o1-Modell noch einmal dieselbe Frage. Die Frageformulierung war fast genau die gleiche wie im Beitrag auf MathOverflow.
Im Vergleich zu menschlichen Experten sind die Antworten von o1 umfassender und perfekter. Es sind nicht nur 5 mögliche Begriffe enthalten, sondern auch die entsprechenden mathematischen Darstellungen, Anwendungsgebiete und Referenzen sind beigefügt.
Tao Zhexuan sagte, dass dieser Beitrag zu MathOverflow zwar in die Trainingsdaten von o1 aufgenommen wurde, aber dennoch die leistungsstarken Fähigkeiten des Modells bei der semantischen Suche demonstrieren kann und die Qualität der gesammelten und zusammengefassten Antworten mit professionellen Frage- und Antwort-Websites wie MathOverflow vergleichbar sein kann.
Das andere Experiment war kreativer und stand in direktem Zusammenhang mit Terence Taos eigener Forschung.
Mehrere Artikel erläutern den Funktionsmechanismus von o1, und DeepMind ist in Oita aufgeführt
Weniger als eine Woche nach der Veröffentlichung des o1-Modells haben wir bereits so viele erstaunliche Anwendungsfälle erlebt, und die KI-Technologie-Community hat unterschiedliche Meinungen über den Mechanismus und die Prinzipien hinter o1.
Deedy Das, ein ehemaliger Google-Suchingenieur und Risikokapitalgeber von MenloVentures, vermutete einmal, dass das Hauptprinzip aus einem im August dieses Jahres veröffentlichten DeepMind-Artikel stammte.
Papieradresse: https://arxiv.org/abs/2408.03314
Das Papier schlägt vor, dass die Möglichkeit, LLM mehr „Testzeitberechnungen“ durchzuführen, ein wichtiger Schritt beim Aufbau eines Agenten ist, der in einem offenen Kontext arbeiten und eine Selbstverbesserung erzielen kann.
Dieser Artikel konzentriert sich auf die Frage der Erweiterung der „Inferenzzeitberechnung“.
Das Forschungsteam analysierte zwei Hauptmechanismen zur Verlängerung der Testzeitberechnungen: (1) Suche anhand eines dichten, prozessbasierten Validator-Belohnungsmodells; (2) Adaptives Aktualisieren der Antwortverteilung des Modells basierend auf den zum Testzeitpunkt erhaltenen Aufforderungswörtern.
Die Ergebnisse zeigen, dass in beiden Fällen die Wirksamkeit verschiedener Erweiterungen der Testzeitberechnungen stark von der Schwierigkeit des Stichworts abhängt.
Auf dieser Grundlage schlug das Forschungsteam eine „rechnerisch optimale“ Erweiterungsstrategie vor: Durch die adaptive Zuweisung von Testzeitberechnungen zu jedem Eingabeaufforderungswort wird die Effizienz der Testzeitberechnungserweiterung um mehr als das Vierfache erhöht.
Darüber hinaus können bei der konsistenten Auswertung von FLOPs bei Problemen, bei denen das kleinere Basismodell einen gewissen Grad an nicht trivialem Erfolg erzielt hat, die Testzeitberechnungen ein 14-mal größeres Modell übertreffen.
Darüber hinaus listete Philipp Schmid, technischer Direktor von HuggingFace, eine Liste von Beiträgen auf, einschließlich der möglichen Arbeitsprinzipien des o1-Modells, in denen es hauptsächlich um die Verbesserung der Argumentationsleistung von LLM bei komplexen Aufgaben durch Training/RLHF und nicht um promptes Engineering geht.
Diese fünf Artikel wurden alle in diesem oder letzten Jahr veröffentlicht und man kann sagen, dass sie den neuesten Fortschritt in der Segmentierungsrichtung darstellen.
Das erste ist Quiet-STaR (Self-TaughtReasoner), das im März dieses Jahres von Stanford und Notbad vorgeschlagen wurde.
Papieradresse: https://arxiv.org/abs/2403.09629
Die Idee für den Aufsatz entspringt der Intuition, dass Menschen beim Schreiben und Sprechen manchmal innehalten und nachdenken, der Inhalt des Denkens und Denkens jedoch nicht explizit zum Ausdruck kommt, sondern implizit im geschriebenen Text enthalten ist.
Im Idealfall kann ein Sprachmodell also lernen, zugrunde liegende Prinzipien abzuleiten, die nicht im Text aufgeführt sind.
Quiet-STaR ist eine im Jahr 2022 veröffentlichte Verallgemeinerung von STaR, die es dem Modell ermöglicht, Grundprinzipien für jeden Token zu generieren, um zukünftigen Text zu erklären und dadurch die Vorhersagefähigkeiten zu verbessern.
Das Gleiche gilt für den zweiten Artikel.
Papieradresse: https://arxiv.org/abs/2408.07199
Sie kombinierten die Monte-Carlo-Baumsuche (MCTS) mit einem Selbstkritikmechanismus und nutzten eine Off-Policy-Variante des Direct Preference Optimization (DPO)-Algorithmus, um die Interaktionen des Agenten iterativ zu verfeinern.
Dieser Ansatz ermöglicht es LLMagent, gleichzeitig effektiv aus erfolgreichen und erfolglosen Trajektorien zu lernen und so die Generalisierung bei komplexen mehrstufigen Argumentationsaufgaben zu verbessern.
Der dritte Artikel konzentriert sich auf das mathematische Denken mit dem Ziel, das Problemverständnis und die „Reflexionsfähigkeiten“ des Modells zu verbessern.
Papieradresse: https://arxiv.org/abs/2406.12050
Insbesondere schlägt das Papier eine neuartige Methode zur „Reflexionsverbesserung“ vor, die die Reflexion des Problems in jede Trainingsinstanz einbettet und das Modell trainiert, andere mögliche Perspektiven zu berücksichtigen sowie Abstraktionen und Analogien zu erstellen und so ein umfassenderes Verständnis durch reflexives Denken zu fördern.
Der Artikel V-STaR ist ebenfalls eine Werbung für das STaR-Framework und wurde im Februar dieses Jahres veröffentlicht.
Papieradresse: https://arxiv.org/abs/2402.06457
Das Papier schlägt vor, dass die ursprüngliche STaR-Methode während des iterativen Prozesses eine große Anzahl falscher Lösungen verwirft und möglicherweise wertvolle Informationen ignoriert.
V-STaR soll dieses Manko ausgleichen. Es verwendet sowohl richtige als auch falsche Lösungen, die während des Selbstverbesserungsprozesses generiert wurden, und nutzt DPO, um ein Verifizierungsmodell zu trainieren, um die Richtigkeit der generierten Lösungen zu beurteilen. Dieser Validator wird während der Inferenzzeit verwendet, um aus Kandidatenlösungen auszuwählen.
Experimente haben ergeben, dass die Ausführung von V-STaR über mehrere Iterationen hinweg schrittweise ein Inferenzmodell und ein Verifizierungsmodell mit besserer Leistung trainieren kann.
Der Artikel Let'sVerifyStepbyStep wurde vom KI-Experten Ilya geleitet.
Papieradresse: https://arxiv.org/abs/2305.20050
In dem Artikel wird hauptsächlich erörtert, wie die Trainingsstrategie großer Modelle für komplexes Denken optimiert werden kann, insbesondere wie CoT zum Denken verwendet werden kann.
Sie schlugen die Prozessüberwachungsmethode (ProcessSupervision) vor, ein neues Modell, das mit dieser Methode trainiert wurde, und erzielten einen Durchbruch bei der Lösung mathematischer Probleme.
Der Vorteil dieser Strategie besteht darin, dass im Vergleich zur Ergebnisüberwachung während des Inferenzprozesses nach und nach Belohnungen gewährt werden, wodurch die Modellleistung erheblich verbessert wird.
Zusätzlich zu den fünf Artikeln, die ursprünglich im Twitter-Beitrag erwähnt wurden, hat Schimid auch eine separate Webseite auf HuggingFace eröffnet, um weiterhin nach relevanten Artikeln zu suchen, und hat nun sieben Artikel abgedeckt.
https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8
Kann o1 eine Selbstverbesserung erreichen?
JimFan wies in einem Analysebeitrag darauf hin, dass die wichtigste Erkenntnis, die uns das o1-Modell liefert, darin besteht, dass diese beiden Kurven Hand in Hand gehen – Skalierungsgesetz während des Trainings und Skalierungsgesetz während der Inferenz, und letzteres ist der Schlüsselfaktor, um sinkende Erträge wirklich zu überwinden.
Darüber hinaus erhielt er zwei Artikel, die unsere Fragen zur „o1-Selbstverbesserungsfähigkeit“ lösen können. Ein Artikel ist das „Self-Reward Language Model“, das im Januar dieses Jahres von Meta und NYU vorgeschlagen wurde.
Papieradresse: https://arxiv.org/abs/2401.10020
Dieser Artikel basiert auf einer sehr einfachen Idee: Fordern Sie dasselbe LLM auf, leiten Sie es an, Antworten zu generieren und sich selbst zu belohnen, indem Sie iteratives Bootstrapping durchführen.
In dem Papier heißt es, dass Belohnungsmodellierungsfunktionen nicht mehr zu einem festen, unabhängigen Modell gehören, sondern dem Tempo des Hauptmodells folgen können. Interessant ist jedoch, dass die Modellsättigung nach bis zu drei Iterationen immer noch auftritt.
In diesem Zusammenhang ist die Idee von JimFan, dass sich das Belohnungsmodell als Kritiker langsamer verbessert als das generative Modell als Schauspieler. Obwohl sich also beide verbessern, wird Letzteres mit Ersterem gleichziehen und nach bis zu drei Iterationsrunden die Sättigung erreichen.
Ein weiterer Artikel ist ReST (Reinforced Self-Training), der im August letzten Jahres von DeepMind veröffentlicht wurde. Auch die experimentellen Ergebnisse sind sehr ähnlich: Es sind bis zu drei Iterationsrunden erforderlich, bevor sinkende Erträge erzielt werden.
Papieradresse: https://arxiv.org/abs/2308.08998
Diese beiden Arbeiten scheinen zu zeigen, dass zwischen Gutachtern und Akteuren keine nachhaltige Fähigkeitslücke besteht, es sei denn, externe Antriebssignale werden eingeführt, wie z. B. die Verifizierung symbolischer Theoreme, Unit-Test-Suiten oder Compiler-Feedback.
Dabei handelt es sich jedoch um hochspezialisierte Inhalte in bestimmten Fachgebieten. Um unsere ideale allgemeine Selbstverbesserung des LLM zu erreichen, müssen mehr Forschungsideen entdeckt und erforscht werden.
Referenzen:
https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/
https://x.com/markten90/status/1835143660746273185
https://mathstodon.xyz/@tao/113142753409304792