Vielleicht ist die Grafikkarte nicht mehr so wichtig? Chinesische Unternehmen erteilen dem Silicon Valley eine gute Lektion

Ich hätte nie erwartet, dass, während der Westen noch in den Weihnachtsfeiertagen versunken ist und verrückt danach ist, das neue Jahr zu feiern, unsere chinesischen Unternehmen den Menschen im neuen Jahr einen Kick geben und ihnen Kopfzerbrechen bereiten würden. Es gab ein Video des Roboterhundes von Yushu Technology, das alle zum Ausruf brachte: „Was braucht Boston Dynamics mehr?“

Dann kam noch einerInländisches großes Modell DeepSeekund riecht sogar nach einem Kurzschluss von Nvidia.

Lassen Sie mich Ihnen genau sagen, was los ist.

Vor ein paar Tagen hat DeepSeek gerade die neueste Version V3 angekündigt.BeachtenIm Gegensatz zu den Produkten des Unternehmens auf der anderen Seite des Ozeans, die behaupten, Open zu sein, aber zunehmend Close sind, ist diese V3 Open Source.

Allerdings ist Open Source nicht sein wichtigstes Label. Auch DeepSeek-V3 (im Folgenden als V3 bezeichnet) verfügt über beidesDie Leistung ist Weltklasse, die Technologie ist großartig und der Preis ist erstaunlich.Drei Merkmale: Diese Reihe unerklärlicher Schritte hat die großen Modellhersteller der Branche ein wenig verwirrt.

Sobald V3 veröffentlicht wurde, war Karpathy, das Gründungsmitglied von OpenAI, sofort begeistert und stellte sogar eine Seelenfrage:Könnte es sein, dass große Modelle überhaupt keine großen Grafikkarten-Cluster benötigen??

Ich schätze, Lao Huangs Kopfhaut wurde taub, als er das sah.

Gleichzeitig rief auch Metas technischer KI-Beauftragter direkt anDie Ergebnisse von DeepSeek sind großartig.

Tim Dettmers, ein bekannter Blogger zur KI-Bewertung, prahlte sofort und sagte, die Verarbeitung von DeepSeek sei elegant und „elegant“.

Und als diese Leute mit technischem Hintergrund die Ergebnisse von V3 betrachteten und es lobten, wurden einige Leute besorgt.

Ultraman sagte zum Beispiel:Das Kopieren ist einfacher, es ist schwer, nicht das Gefühl zu haben, dass er DeepSeek assoziiert.

Noch interessanter ist, dass es sich bei den Unternehmen, die dies tun, weder um große Hersteller noch um reine KI-Hersteller handelt.

Der chinesische Name von DeepSeek ist Deep Seek und sie haben nichts mit KI zu tun.

Kurz bevor das große Modell immer beliebter wurde, haben sieTatsächlich handelt es sich um ein Team der Private-Equity-Firma Magic Square Quantitative..

Und eine tiefe Suche kann zum Überholen in Kurven führen, was sowohl unvermeidlich ist als auch ein bisschen Glück zu sein scheint.

Bereits 2019 investierte Huanfang 200 Millionen Yuan in den Aufbau einer selbst entwickelten Deep-Learning-Trainingsplattform „Firefly One“. Bis 2021 hat es eine Rechenleistungsreserve von 10.000 Fuß Nvidia A100-Grafikkarten erworben.

Wissen Sie, zu dieser Zeit waren große Modelle nicht beliebt und das Konzept des Wanka-Clusters war noch nicht aufgetaucht.

Genau mit diesem Teil der Hardware-Reserven löste Huan Fang das Ticket zum großen KI-Modell und rollte schließlich die aktuelle V3 aus.

Sie sagten, dass ein großes Unternehmen im Bereich quantitativer Investitionen sich mit KI befassen sollte?

Liang Wenfeng, CEO von Deep Search, sagte in einem Interview, dass er hinsichtlich der Aussichten von KI nicht optimistisch sei.

Aber ihrer Ansicht nach „Allgemeine künstliche Intelligenz könnte eines der nächstschwierigsten Dinge sein„Für sie ist es eine Frage des Wie, nicht des Warum.“ "

Mit solch „rücksichtsloser“ Energie und gründlicher Recherche sind wir auf diese große Neuigkeit gekommen. Lassen Sie mich Ihnen im Detail erklären, was das Besondere an V3 ist.

Der erste ist seine starke Leistung. Derzeit kann fast kein Open-Source-Modell V3 schlagen.

Ich erinnere mich noch daran, dass Xiao Zha’s Meta Mitte letzten Jahres das Modell Llama 3.1 auf den Markt gebracht hat. Damals wurde es wegen seiner hervorragenden Leistung und Open Source als Gott gepriesen. Im Grunde genommen in den Händen von V3Es ist eine totale Niederlage.

Was die Closed-Source-Modelle verschiedener großer Hersteller betrifft, die jeder kennt, wie GPT-4o, Claude3.5Sonnet usw., kann V3 auch hin und her spielen.

Wenn man das sieht, denkt man vielleicht, dass es einfach nur so ist, dass es zum internationalen Spitzenniveau aufgeschlossen hat. Lohnt es sich, so zu prahlen?

Die Grausamen kommen noch.

Jeder weiß wahrscheinlich, dass es sich bei dem aktuellen großen Modell um einen Alchemieprozess handelt, der viel Rechenleistung verbraucht, damit das Modell verschiedene Daten verbrauchen kann.

In dieser Zeit der Alchemie wird viel Rechenleistung und Zeit benötigt.

Daher gibt es im Kreis „GPU-Stunden“ eine neue Maßeinheit, die besagt, wie viele GPUs genutzt werden und wie viele Stunden Trainingszeit aufgewendet werden.

Je höher die GPU, desto höher der Zeit- und Geldaufwand und umgekehrt.

Der zuvor erwähnte König des Open-Source-Modells, Llama3.1405B, benötigte im Trainingszyklus 30,8 Millionen GPU-Stunden.

V3 mit stärkerer Leistung ist verfügbar.Es dauerte nur weniger als 2,8 Millionen GPU-Stunden.

Was das Geld angeht, hat DeepSeek nur mehr als 40 Millionen Yuan für die Produktion der V3-Version ausgegeben.

Während des Trainings von Llama3.1405B kaufte Meta allein von Lao Huang mehr als 16.000 GPUs, was nach vorsichtigen Schätzungen mindestens eine Milliarde Yuan kostete.

Die anderen Closed-Source-Modelle kosten oft Milliarden oder mehrere zehn Milliarden.

Denken Sie nicht, dass DeepSeek auf irgendwelchen krummen Methoden beruht. Sie sind ernsthafte Menschen mit Fähigkeiten.

Um herauszufinden, wie die Technologie von DeepSeek aussieht, haben wir gezielt Kontakt mit Chi Guangyao, dem Gründer und CTO von Yuhe Technology, aufgenommen. Sie entwickeln hauptsächlich digitale Agenten für Unternehmen und sind seit langem ein eingefleischter Fan von DeepSeek.

Chi Guangyao sagte uns, dass sich dieses V3-Update hauptsächlich auf die Optimierung in drei Aspekten konzentriert, nämlichKommunikations- und Speicheroptimierung,Experte für ArgumentationLastausgleichsowieFP8 gemischtes Präzisionstraining.

Ich werde nicht näher darauf eingehen, wie die einzelnen Teile implementiert werden. Im Allgemeinen hat sich an der Gesamtstruktur nicht viel geändert. Es ähnelt eher den traditionellen Fähigkeiten, die wir beim Infrastrukturbau einsetzen, um das Projekt effizienter und sinnvoller zu gestalten.

Erstens hat V3 die Leistung durch Kommunikations- und Speicheroptimierung erheblich verbessert.Reduzierte Ressourcenleerlaufrate, Verbesserung der Nutzungseffizienz.

Noch cleverer ist die Lastverteilung von Reasoning-Experten (KI-Systeme oder Algorithmen mit Reasoning-Fähigkeiten, die durch Datenanalyse Schlussfolgerungen ziehen können). Bei einem allgemeinen Großmodell müssen bei jedem Start alle Experten zu gleichen Teilen in die Workstation (Videospeicher) geladen werden. Bei der tatsächlichen Beantwortung von Nutzerfragen werden allerdings nur ein bis zwei von einem Dutzend Experten eingesetzt. Die verbleibenden Experten belegen den Arbeitsplatz (Videospeicher) und können nichts anderes tun.

DeepSeek unterteilt Experten in beliebte und unbeliebte.Populäre Experten können eine Kopie in den Videospeicher kopieren, um beliebte Probleme zu lösen; unbeliebte Experten machen sich das nicht zunutze und lassen sich immer wieder Problemen zuordnen..

Das gemischte Präzisionstraining im FP8 ist ein neuer Schritt in die Richtung, die viele Teams zuvor erfolglos versucht haben. Durch die Reduzierung der Trainingsgenauigkeit, um den Rechenaufwand während des Trainings zu reduzieren, bleibt die Antwortqualität auf wundersame Weise im Wesentlichen unverändert.

Gerade diese technologischen Innovationen ernten in der großen Modellkreise einhelliges Lob.

Durch ständige Iterationen von Technologieaktualisierungen sind die Erträge, die DeepSeek erzielt hat, ziemlich erstaunlich.

Nachdem ihre V3-Version auf den Markt kam, war ihr Preis bereitsNur ein paar Cent oder ein paar Dollar für eine Million Mal.

Sie führen sogar eine neue Produktaktion durch, und bis zum 8. Februar nächsten Jahres werden sie auf der Grundlage des ursprünglichen Niedrigpreises rabattiert.

Wie eingangs erwähnt, kostet Claude3.5Sonnet, das ebenfalls Open Source ist, mindestens Dutzende Yuan pro Million Input und Output ...

Was noch schlimmer ist, ist, dass dies für DeepSeek bereits eine Routineroutine ist.

Bereits Anfang letzten JahresNach der Veröffentlichung des DeepSeekV2-Modells vertraute man auf seinen günstigen Preis und wurde aufgerufenKIJiepinduoduo.

Sie gingen weiterDies löste einen Preiskampf unter den großen inländischen Modellunternehmen aus.Große Hersteller wie Zhipu, Byte, Alibaba, Baidu und Tencent haben die Preise gesenkt.

Chi Guangyao erzählte uns auch, dass sein Unternehmen bereits im Juni und Juli letzten Jahres mit der Nutzung von DeepSeek begonnen habe. Zu dieser Zeit kamen einige andere große inländische Modellhersteller zu ihnen.

Aber das Modell ist ungefähr so teuer wie DeepSeek„Schon wieder zu dumm,Nicht in der gleichen Dimension wie DeepSeek„; Wenn die Modellfähigkeit DeepSeek ähnelt, welcher Preis?“Grundsätzlich mehr als 10 Mal".

Was noch übertriebener ist, ist, dass aufgrund der Kostensenkung und Effizienzsteigerung, die die „weit führende“ Technologie mit sich bringt, auch wenn DeepSeek sie laut ihrem Gründer Liang Wenfeng so günstig verkauft,Ihr Unternehmen verdient immer noch Geld... Fühlt es sich nicht so an, als ob BYD nebenan 998 macht und seine Finanzberichte immer noch boomen?

Für uns normale Benutzer scheint DeepSeek jedoch etwas voreingenommen zu sein.

Denn seine Stärken liegen vor allem im Denken, in der Mathematik und im Programmieren, während Multimodalität und einige Unterhaltungsbereiche nicht zu seinen Stärken zählen.

Und obwohl DeepSeek sagt, dass sie derzeit immer noch Geld verdienen, herrscht in ihrem Team eine durch und durch geekige Stimmung, sodass ihre Kommerzialisierung etwas schwächer ist als bei anderen Herstellern.

Aber auf jeden Fall beweist der Erfolg von DeepSeek auch, dass es im KI-Bereich noch mehr Möglichkeiten gibt.

Wenn man mit KI spielen möchte, ohne dass ein Geldgeber und der Vater Geld für den Kauf einer Grafikkarte ausgibt, wird man nach bisheriger Auffassung überhaupt nicht damit spielen können.

Doch nun scheint es, dass die Beherrschung der Rechenleistung nicht unbedingt bedeutet, alles zu beherrschen.

Wir können uns in Zukunft genauso gut auf weitere Optimierungen freuen, die es mehr kleinen Unternehmen und Start-ups ermöglichen, in den Bereich der KI einzusteigen. Ich habe immer das Gefühl, dass dies die wahre Welle der KI ist.