Heute hat OpenAI sein neues nicht-inferenzielles Modell GPT-4.5 veröffentlicht, das bisher größte und sachkundigste Modell. Wie der Name schon sagt, basiert GPT-4.5 auf GPT-4o und wurde im Vortrainingsprozess weiter erweitert. OpenAI hat bestätigt, dass GPT-4.5 kein hochmodernes Modell ist, aber es ist ihr größtes LLM und verfügt über mehr Weltwissen, bessere Schreibfähigkeiten und eine verfeinerte Persönlichkeit als GPT-4o.
Benchmark-Testdaten zeigen, dass GPT-4.5 kein wesentliches Upgrade gegenüber GPT-4o darstellt. Im SWE-benchVerified-Benchmark-Test erreichte GPT-4.5 38 %, was 2–7 % mehr als GPT-4o und 30 % weniger als das O3-basierte Deep-Research-Modell von OpenAI ist. Im Vergleich dazu erreichte Claude3.7Sonnet von Anthropic eine Leistung von 62,3 % bei SWE-benchVerified.
Kürzlich hat das Preparedness-Team von OpenAI einen neuen Benchmark namens SWE-Lancer entwickelt, um die Leistung von LLM bei praktischen Software-Engineering-Aufgaben zu bewerten, einschließlich Funktionsentwicklung, Design, Fehlerbehebung usw. In diesem neuen Benchmark konnte das GPT-4.5-Modell 20 % der ICSWE-Aufgaben und 44 % der SWEManager-Aufgaben lösen, was eine leichte Verbesserung gegenüber dem o1-Modell von OpenAI darstellt.
Die Details zum neuen Modell können Sie hier lesen:
https://openai.com/index/introducing-gpt-4-5/
Im Hinblick auf die Sicherheit stufte die Security Advisory Group von OpenAI das neue GPT-4.5-Modell auf der Grundlage der Ergebnisse der Bereitschaftsbewertung als insgesamt mittleres Risiko ein. Auch bei Cybersicherheit und Modellautonomie schnitt es schlechter ab.
Die neue GPT-4.5-Modellforschungsvorschau ist jetzt für ChatGPTPro-Benutzer und Entwickler aller kostenpflichtigen Pläne über die API verfügbar. Nächste Woche erhalten auch ChatGPTPlus-Benutzer die Funktion.