Wenn es um große Sprachmodelle (LLMs) geht, ist die Skalierung sicherlich wichtig, da sie sich darauf auswirkt, wo das Modell ausgeführt wird. StabilityAI, ein Hersteller, der für seine Technologie zur Erzeugung künstlicher Intelligenz mit stabiler Text-zu-Bild-Generierung bekannt ist, hat heute eines seiner bisher kleinsten Modelle veröffentlicht – StableLM21.6B.
StableLM ist ein LLM zur Generierung von Textinhalten, das Stable AI erstmals im April 2023 mit 3 Milliarden und 7 Milliarden Parametermodellen auf den Markt brachte. Das neue StableLM-Modell ist tatsächlich das zweite von StabilityAI im Jahr 2024 veröffentlichte Modell, nachdem das Unternehmen Anfang dieser Woche StableCode3B veröffentlicht hat.
Das neue StableLM-Modell ist kompakt und leistungsstark und soll die Eintrittsbarriere für mehr Entwickler senken, um am generativen KI-Ökosystem teilzunehmen und mehrsprachige Daten in sieben Sprachen zu integrieren: Englisch, Spanisch, Deutsch, Italienisch, Französisch, Portugiesisch und Niederländisch. Das Modell nutzt die neuesten algorithmischen Fortschritte in der Sprachmodellierung, um das von StabilityAI gewünschte beste Gleichgewicht zwischen Geschwindigkeit und Leistung zu erreichen.
Carlos Riquelme, Leiter des Sprachteams bei StabilityAI, sagte gegenüber VentureBeat: „Im Allgemeinen schneiden größere Modelle, die mit ähnlichen Trainingsrezepten auf ähnlichen Daten trainiert werden, tendenziell besser ab als kleinere Modelle. Im Laufe der Zeit, wenn neue Modelle jedoch in der Lage sind, bessere Algorithmen zu implementieren und auf mehr und qualitativ hochwertigeren Daten zu trainieren, sehen wir manchmal, dass neuere kleinere Modelle ältere größere Modelle übertreffen.“
Laut StabilityAI übertrifft das Modell andere kleine Sprachmodelle mit Parametern unter 2 Milliarden bei den meisten Benchmarks, darunter Microsofts Phi-2 (2,7 Milliarden), TinyLlama1.1B und Falcon1B. Der neue, kleinere StableLM ist sogar in der Lage, einige der größeren Modelle zu übertreffen, darunter das frühere StableLM3B-Modell von StabilityAI.
Riquelme sagte: „StableLM21.6B. Erbringt eine bessere Leistung als einige der größeren Modelle, die vor einigen Monaten trainiert wurden. Bedenken Sie ähnliche Trends bei Computern, Fernsehern oder Mikrochips, wo sie mit der Zeit kleiner, dünner und besser werden.“
Um es klarzustellen: Der kleinere StableLM21.6B hat aufgrund seiner geringen Größe einige Nachteile. Aufgrund der Natur kleiner Sprachmodelle mit geringer Kapazität kann StableLM21.6B auch einige häufige Probleme aufweisen, wie z. B. hohe Halluzinationsraten oder potenziell toxische Sprache.
In den letzten Monaten hat StabilityAI an kleineren und leistungsfähigeren LLM-Optionen gearbeitet. Im Dezember 2023 wurde das Modell StableLMZephyr3B veröffentlicht, das kleiner, aber leistungsfähiger ist als das im April veröffentlichte erste Modell.
Das neue StableLM2-Modell wird auf mehr Daten trainiert, einschließlich mehrsprachiger Dokumente in 6 Sprachen (Spanisch, Deutsch, Italienisch, Französisch, Portugiesisch und Niederländisch) zusätzlich zu Englisch. Ein weiterer interessanter Aspekt, den Riquelme hervorhebt, ist die Reihenfolge, in der dem Modell während des Trainings Daten präsentiert werden. Er weist darauf hin, dass es lohnend sein kann, sich in verschiedenen Phasen des Trainings auf verschiedene Arten von Daten zu konzentrieren.
Um noch einen Schritt weiter zu gehen, bietet StabilityAI neue Modelle mit Vortrainings- und Feinabstimmungsoptionen sowie ein Format an, das die Forscher „...letzter Modellkontrollpunkt vor Abklingzeit vor dem Training“ nennen.
„Unser Ziel ist es, einzelnen Entwicklern mehr Werkzeuge und Artefakte zur Verfügung zu stellen, mit denen sie bestehende Modelle innovieren, anpassen und darauf aufbauen können. Hier stellen wir den Menschen ein konkretes, halbfertiges Modell zur Verfügung“, sagte Riquelme.
Während des Trainingsprozesses wird das Modell sequentiell aktualisiert und seine Leistung verbessert. In diesem Fall weiß das erste Modell nichts, während das letzte Modell die meisten Daten verbraucht hat und diese voraussichtlich lernen wird. Gleichzeitig kann es sein, dass Modelle gegen Ende des Trainings weniger flexibel werden, weil sie gezwungen sind, das Lernen zu beenden.
„Wir haben beschlossen, das Modell in seiner aktuellen Form verfügbar zu machen, bevor wir mit der letzten Trainingsphase beginnen, damit es hoffentlich einfacher ist, es für andere Aufgaben oder Datensätze zu spezialisieren, die die Leute vielleicht verwenden möchten“, sagte er. „Wir sind nicht sicher, ob das gut funktionieren wird, aber wir glauben wirklich an die Fähigkeit der Menschen, neue Tools und Modelle auf erstaunliche Weise zu nutzen.“