Auf dem Schlachtfeld der multimodalen Großmodelle haben einige davon bereits Wind bekommen. Laut ausländischen Medienberichten scheint sich das neue multimodale Modell Gobi von OpenAI in Vorbereitung zu befinden. Der Showdown zwischen Google und OpenAI scheint unmittelbar bevorzustehen. Da dieser Herbst näher rückt, ist auch der multimodale Modellkampf zwischen Google und OpenAI in eine erbitterte Phase eingetreten.
Erst letzte Woche hat Google die Möglichkeiten seines multimodalen Großmodells Gemini für einige externe Unternehmen geöffnet.
Und OpenAI wird natürlich nicht still sitzen und auf den Tod warten. Sie kämpfen gegen die Zeit, um multimodale Funktionen in GPT-4 zu integrieren, und streben danach, ein großes multimodales Modell mit ähnlichen Funktionen wie Gemini auf den Markt zu bringen und Google auf einen Schlag zu töten.
Die legendäre multimodale Funktion wurde auf der GPT-4-Konferenz von OpenAI demonstriert, die im März dieses Jahres die Welt schockierte –
Zeichnen Sie eine Skizze auf Papier, machen Sie ein Foto, senden Sie es an GPT-4 und sagen Sie „Erstelle mir eine Website mit diesem Layout“, und der Webseitencode wird sofort geschrieben.
Chef Greg Brockman demonstrierte persönlich online
Aber dann schien Multimodalität ein Strohfeuer zu sein, und niemand hat jemals eine produktive körperliche Funktion gesehen.
Kommt also endlich der multimodale Krieg zwischen Google und OpenAI?
OpenAI kämpft gegen Google und beeilt sich, große multimodale Modelle zu veröffentlichen
Angesichts der Gerüchte, dass Google diesen großen Killer töten wird, wird OpenAI sicherlich nicht gleichgültig bleiben.
Laut ausländischen Medien The Information befindet sich ein neues multimodales Großmodell namens Gobi bereits in intensiver Vorbereitung.
OpenAI plant, multimodales LLM vor der Veröffentlichung von Gemini einzuführen und damit Google völlig zu besiegen.
Greg Brockman von OpenAI gegen Demis Hassabis von Google
Tatsächlich hat OpenAI nach der Veröffentlichung einer Vorschau der multimodalen GPT-4-Funktion im März diese Funktion einem Unternehmen namens BeMyEyes vorgestellt, sie jedoch nicht anderen Unternehmen zur Verfügung gestellt.
Wie der Name schon sagt, entwickelt dieses Unternehmen Technologien, die blinden oder sehbehinderten Menschen eine klarere Sicht ermöglichen.
Kürzlich plant OpenAI die breitere Einführung einer Funktion namens GPT-Vision.
Warum hat OpenAI so lange gedauert?
Der Hauptgrund besteht darin, dass sie befürchten, dass die neuen visuellen Funktionen von Kriminellen genutzt werden könnten, etwa um sich als Menschen auszugeben, indem sie automatisch Verifizierungscodes knacken, oder um Menschen durch Gesichtserkennung zu verfolgen.
Allerdings scheinen die OpenAI-Ingenieure diese rechtlichen Sicherheitsrisiken gelöst zu haben.
In ähnlicher Weise sagte auch ein Google-Sprecher: Google hat einige Maßnahmen ergriffen, um den Missbrauch von Gemini zu verhindern.
In einer im Juli abgegebenen Zusage verpflichtete sich Google, in allen seinen Produkten verantwortungsvolle künstliche Intelligenz zu entwickeln.
Kann Gobi GPT-5 werden?
Nach GPT-Vision wird OpenAI wahrscheinlich ein leistungsfähigeres multimodales großes Modell mit dem Codenamen Gobi auf den Markt bringen.
Im Gegensatz zu GPT-4 basiert Gobi von Anfang an auf einem multimodalen Modell.
Ist Gobi also der legendäre GPT-5?
Im Moment wissen wir es nicht. Es gibt keine genauen Informationen darüber, wie weit Gobi im Training gekommen ist.
Anfang September löste Mustafa Suleyman, Mitbegründer von DeepMind und jetzt CEO von InflectionAI, in einem Interview einen Paukenschlag aus – er spekulierte, dass OpenAI heimlich GPT-5 trainiere.
Suleyman glaubt, dass Sam Altman möglicherweise nicht die Wahrheit sagt, als er kürzlich sagte, dass sie GPT-5 nicht trainiert hätten. (Die ursprünglichen Worte lauten: Komm schon. Ich weiß es nicht. Ich denke, es ist besser, wenn wir alle ehrlich sind.)
Laut Personen, die Gemini ausprobiert haben, wird Gemini hier weniger Halluzinationen hervorrufen als bestehende Modelle. Die Gründe sind unten aufgeführt.
Kurz gesagt, der multimodale Modellkrieg zwischen Google und OpenAI kann als die KI-Version des iPhone- und Android-Showdowns bezeichnet werden.
Der eine ist ein Riese aus dem Silicon Valley, der seit vielen Jahren den KI-Bereich dominiert, der andere ist ein erstklassiges KI-Start-up-Unternehmen, das im Rampenlicht seinesgleichen sucht. Wie groß die Kluft zwischen den beiden ist, darauf warten alle mit angehaltenem Atem.
Google testet Gemini heimlich
Andererseits hat Google auch damit begonnen, einige externe Entwickler einzuladen, um die Tests des kommenden multimodalen Großmodells Gemini der nächsten Generation zu beschleunigen.
Letzte Woche berichtete The Information exklusiv, dass Gemini möglicherweise bald für eine Testversion bereit sein und in Dienste wie Google Cloud Vertex AI integriert werden wird.
Auf der diesjährigen Google I/O-Entwicklerkonferenz stellte Pichai Gemini öffentlich vor, ein multimodales Modell, ein effizientes Integrationstool und eine API.
Um gemeinsam Großes zu leisten, hat Google außerdem Google Brain mit DeepMind Labs zusammengeführt.
Es wird gesagt, dass mindestens mehr als 20 Führungskräfte an der Forschung und Entwicklung von Gemini beteiligt waren, angeführt von Demis Hassabis, dem Gründer von DeepMind, und Sergey Brin, dem Gründer von Google, der an der Forschung und Entwicklung beteiligt war.
Es gibt auch Hunderte von Mitarbeitern bei Google DeepMind, darunter der ehemalige Google Brain-Direktor Jeff Dean und andere.
Eine Person, die es getestet hat, sagte, Gemini habe in mindestens einer Hinsicht einen Vorteil gegenüber GPT-4: Zusätzlich zu öffentlich zugänglichen Informationen im Web nutzt das Modell auch eine große Menge proprietärer Daten aus Googles Verbraucherprodukten (Suche, YouTube).
Daher sollte Gemini besonders genau darin sein, die Absicht eines Benutzers für eine bestimmte Anfrage zu verstehen, und es scheint weniger falsche Antworten, also Halluzinationen, zu geben.
Laut früheren Berichten von SemiAnalysis-Analysten hat Googles großes Modell Gemini der nächsten Generation mit dem Training auf dem neuen TPUv5Pod mit einer Rechenleistung von bis zu ~1e26FLOPS begonnen, was fünfmal mehr ist als die Rechenleistung des GPT-4-Trainings.
Darüber hinaus enthält die Trainingsdatenbank von Gemini 93,6 Milliarden Minuten Videountertitel auf Youtube, und die Gesamtgröße des Datensatzes ist etwa doppelt so groß wie die von GPT-4.
Es wird gesagt, dass das große Modell der nächsten Generation von Google ebenfalls aus mehreren Maßstäben besteht und möglicherweise MoE-Architektur und spekulative Sampling-Technologie verwendet.
Das Token wird im Voraus vom kleinen Modell generiert und zur Auswertung an das große Modell übergeben, um die Gesamtschlussfolgergeschwindigkeit des Modells zu verbessern.
Hassabis, der Leiter von Google DeepMind, sagte in einem Interview, dass Gemini voraussichtlich Dutzende bis Hunderte Millionen Dollar kosten wird, was den Kosten für die Entwicklung von GPT-4 entspricht.
Gemini wird die in AlphaGo verwendete Technologie integrieren, was dem System neue Planungs- und Problemlösungsfähigkeiten verleihen wird.
Man kann sagen, dass Gemini einige der Vorteile des AlphaGo-Systems mit den erstaunlichen Sprachfähigkeiten großer Sprachmodelle kombiniert. Und wir haben noch einige weitere interessante Innovationen.
Die Technologie hinter AlphaGo ist Reinforcement Learning, eine von DeepMind entwickelte Technologie.
RL-Agenten interagieren im Laufe der Zeit mit der Umgebung, lernen Richtlinien durch Versuch und Irrtum und maximieren so die langfristigen kumulativen Belohnungen
Durch verstärkendes Lernen kann die KI ihre Leistung durch Versuch und Irrtum anpassen und Feedback erhalten und so lernen, mit schwierigen Problemen umzugehen, wie etwa der Wahl des nächsten Zuges in Go oder Videospielen.
Darüber hinaus nutzt AlphaGo auch die Monte-Carlo-Tree-Search-Methode (MCTS), um alle möglichen Züge auf dem Brett zu erkunden und sich daran zu erinnern.
Im Vergleich zu bestehenden Modellen wird Gemini die Codegenerierungsfähigkeiten von Softwareentwicklern erheblich verbessern, und Google hofft, damit mit dem GitHubCopilot-Codeassistenten von Microsoft gleichziehen zu können.
Google hat auch darüber gesprochen, Gemini zu verwenden, um Funktionen wie die Diagrammanalyse zu implementieren, etwa das Modell aufzufordern, die Bedeutung fertiger Diagramme zu interpretieren, und Text- oder Sprachbefehle zum Durchsuchen von Webbrowsern oder anderer Software zu verwenden.
Auch die Google Cloud-Entwicklerplattform Google Cloud Vertex AI wird von Gemini unterstützt, wobei sowohl große als auch kleine Versionen verfügbar sind, sodass Entwickler für den Kauf kleiner Modelle bezahlen können, die auf persönlichen Geräten laufen.
Jetzt bereitet sich Google vollständig auf den Krieg vor und wartet darauf, dass Gemini seinen Gegenangriff startet.
gpt-3.5-turbo-instruct veröffentlicht
Im Juli gab OpenAI bekannt, dass die GPT-4-API vollständig verfügbar ist und in den nächsten Monaten neue Modelle auf den Markt bringen wird.
Nein, erst heute haben Internetnutzer E-Mails erhalten, in denen das neue Modell von gpt-3.5-turbo-instruct veröffentlicht wird, um das alte Modell text-davinci-003 zu ersetzen.
Berichten zufolge ist gpt-3.5-turbo-instruct ein Modell im InstructGPT-Stil und seine Trainingsmethode ähnelt text-davinci-003.
Die Verwendungsmethode ähnelt der vorherigen Prompt-Completion und wird gemäß den Anweisungen des Prompt-Worts vervollständigt.
Preislich bleibt gpt-3.5-turbo4K konstant.
Einige Internetnutzer haben bereits damit begonnen, das neueste Modell zu nutzen, um mit etwa 1800 Elo Schach zu spielen.
Zuvor stellte er fest, dass GPT dies überhaupt nicht konnte, aber jetzt scheint es, dass dies nur ein Problem mit dem RLHF-Chat-Modell ist und das reine Abschlussmodell erfolgreich ist.
Im Spiel besiegte gpt-3.5-turbo-instruct problemlos Stockfish Level 4 (1700 Punkte) und fiel auch in Level 5 (2000 Punkte) nicht zurück.
Es macht niemals einen illegalen Zug, nutzt clevere Eröffnungsopfer und unglaubliche Bauern- und Königsschachmatts, wodurch seine Gegner ohne wirkliche Bedeutung vorrücken können.
Internetnutzer verwenden die folgenden Eingabeaufforderungen im PGN-Stil, um das Masterspiel zu simulieren. Die Hervorhebung ist etwas falsch. GPT macht seine eigenen Bewegungen und gibt die Bewegungen von Stockfish manuell ein.
Übrigens hat die Registrierung für die erste Entwicklerkonferenz von OpenAI, die im November stattfinden wird, begonnen, also beeilen Sie sich und bewerben Sie sich.