NVIDIA erfindet die neue Technologie KVTC, um die Speichernutzung um das Zwanzigfache zu reduzieren

NVIDIA-Forscher haben eine neue Technologie eingeführt, KVTC (KV Cache Transformation Coding), die den Speicherverbrauch von Large Language Models (LLM) zur Verfolgung des Konversationsverlaufs um das bis zu 20-fache reduzieren kann, ohne das Modell selbst zu ändern.Es wird erwartet, dass dieser Durchbruch das Problem des unzureichenden Speichers während langer Konversationsbegründungen in großen Sprachmodellen löst.Es reduziert die Hardwarekosten für Unternehmen für den Einsatz von KI erheblich und beschleunigt gleichzeitig die Zeit, die ein Modell benötigt, um zum ersten Mal eine Antwort zu generieren, um das bis zu Achtfache.

Einfach gesagt,Der Kern der KVTC-Technologie ist der KV-Cache hinter der Komprimierung großer Sprachmodelle – er entspricht dem „Kurzzeitgedächtnis“ des KI-Modells.. Wir können uns den KV-Cache so vorstellen, als würden Schüler Notizen machen: Wenn das Modell den Dialog verarbeitet, notiert es die Schlüsselinformationen (d. h. Schlüssel und Wert). Wenn das nächste Mal eine Antwort generiert wird, muss der gesamte Dialog nicht von Grund auf neu berechnet werden, und die Antwortgeschwindigkeit kann erheblich verbessert werden.

Das Problem besteht jedoch darin, dass die „Notiz“ umso größer wird, je länger das Gespräch dauert, und dass sie sich sogar auf mehrere GB ausdehnt, wodurch viel GPU-Speicher belegt wird, was das Modell verlangsamt und seine Verarbeitungskapazitäten einschränkt.

Adrian Lancucki, ein leitender Deep-Learning-Ingenieur bei NVIDIA, sagte: „Bei der Ableitung großer Sprachmodelle liegt der Leistungsengpass oft nicht in der Rechenleistung, sondern im GPU-Speicher.“ Diese vorübergehend ungenutzten KV-Caches belegen immer wertvolle GPU-Ressourcen und zwingen das System, diese auf den CPU-Speicher oder die Festplatte zu übertragen. Dies erhöht nicht nur die Belastung durch die Datenübertragung, sondern kann auch zu neuen Verzögerungsproblemen führen. Diese zusätzlichen Kosten werden sich letztendlich in den Nutzungsgebühren des Unternehmens niederschlagen.

Im Vergleich zur bestehenden Komprimierungstechnologie weist KVTC keine offensichtlichen Einschränkungen auf. Es basiert auf der bekannten Idee der JPEG-Bildkomprimierung und kann durch drei einfache Schritte „Hauptkomponentenanalyse, adaptive Quantisierung und Entropiecodierung“ eine effiziente Komprimierung erreichen.

Praktischer ist, dass diese Technologie keine Änderungen an den Kerneinstellungen und dem Code des Modells erfordert. Es ist ein „nicht-intrusives“ Design und kann von Unternehmen schnell bereitgestellt werden. Sein Hauptvorteil besteht darin, dass es die „hochrelevanten Daten“-Eigenschaften des KV-Cache erfassen, redundante Daten unter Beibehaltung wichtiger Informationen entfernen und sie in Blöcken und Schicht für Schicht dekomprimieren kann, ohne die Echtzeitreaktion des Modells zu beeinträchtigen.

Das haben mehrere Testrunden gezeigtDie Leistung von KVTC übertrifft die bestehenden Mainstream-Methoden bei weitem. Bei einer Vielzahl von Modellen mit Parametern im Bereich von 1,5 Milliarden bis 70 Milliarden (einschließlich Llama 3-Serie, R1-Qwen 2,5 usw.) bleibt die Modellgenauigkeit nahezu unverändert, selbst wenn der Speicher 20-mal komprimiert wird, mit einem Verlust von weniger als 1 %, was fast dem gleichen Wert wie ohne Komprimierung entspricht.; Wenn die herkömmliche Komprimierungsmethode jedoch nur fünfmal komprimiert, nimmt die Genauigkeit erheblich ab.

Zusätzlich,Bei der Verarbeitung von 8.000 Token-Eingabeaufforderungen auf der H100-GPU dauert es ohne Verwendung von KVTC 3 Sekunden, um die erste Antwort zu generieren, und nach der Verwendung nur 380 Millisekunden, was ganze 8-mal schneller ist.

Es ist zu beachten, dass KVTC besser für lange Dialoge und Interaktionsszenarien mit mehreren Runden geeignet ist, z. B. Programmierassistenten, iterative Agentenbegründung usw. Wenn der Dialog kurz ist, ist es schwierig, seinen Komprimierungswert zu nutzen.

Derzeit plant NVIDIA, diese Technologie in den KV-Blockmanager des Dynamo-Frameworks zu integrieren, um sie mit gängigen Open-Source-Inferenz-Engines wie vLLM kompatibel zu machen.

Brancheninsider gehen davon aus, dass standardisierte Komprimierungstechnologien wie KVTC in Zukunft genauso beliebt werden könnten wie die Videokomprimierung, da die Konversationslänge, die große Sprachmodelle bewältigen können, immer weiter zunimmt, was dazu beitragen könnte, dass KI in größerem Umfang eingesetzt wird.