Google hat kürzlich das multimodale Modell Gemma 4 12B Version veröffentlicht und als Open Source bereitgestellt. Das Entwicklungsziel dieses Modells besteht darin, Verbrauchergeräten die lokale Ausführung von KI-Modellen zu ermöglichen. Laut Tests von Google kann das Modell dank der kleinen Parameter von 12B auf Laptops und Desktops mit 16 GB Arbeitsspeicher/Videospeicher laufen, ist aber genauso intelligent wie das Gemma 26B-Versionsmodell.

Zu den Modellvorteilen gehören:
Neue einheitliche Architektur: Keine Notwendigkeit für multimodale Encoder, direkte Unterstützung für Text-, Bild-, Video- und Audioeingabe.
Erweiterte Inferenzfunktionen: Die Benchmark-Leistung kommt dem hybriden Expertenarchitekturmodell Gemma Version 26B nahe, das lokal mehrstufige Inferenzen bereitstellen kann.
Geringe Speicheranforderungen: Für die lokale Ausführung sind nur 16 GB Arbeits- oder Videospeicher erforderlich, obwohl mehr Speicher eine bessere Leistung bietet.
Modell-Open-Source-Veröffentlichung: Das Modell wird unter der Apache 2.0-Lizenz veröffentlicht, und Google und die Community bieten außerdem vollständige Unterstützung für das Entwickler-Ökosystem.
Prädiktiver Selektor: Die Gemma 4 12B-Version ist mit einer Vielzahl von prädiktiven Token-Selektoren ausgestattet, die Verzögerungen effektiv reduzieren können.
Mehr zum Modell:
Die Intelligenz von Gemma 4 12B im Annotation-Benchmark-Test kommt dem 26B MoE-Hybridarchitekturmodell nahe, das zuvor von Google als Open Source veröffentlicht wurde. Allerdings hat die 12B-Version einen sehr geringen Speicherbedarf und kann direkt auf Consumer-Laptops und Desktops mit 16 GB Arbeitsspeicher oder Videospeicher ausgeführt werden, sodass Benutzer lokal leistungsstarke multimodale und intelligente Interaktionserlebnisse erleben können.
Zu den herausragenden Vorteilen dieses Modells gehört auch die Vereinfachung der Verarbeitung von Bild-, Video- und Audioeingaben. Herkömmliche multimodale Modelle basieren normalerweise auf unabhängigen Encodern, um Bilder und Audio zu konvertieren und die konvertierte Darstellung dann an das Sprachmodell weiterzuleiten. Da diese separaten Encoder die Latenz und die Speichernutzung erhöhen, verwendet Google eine Encoder-lose Architektur, um das Gemma 4 12B-Modell zu trainieren, sodass das Modell Audio- und visuelle Eingaben direkt integrieren kann.
Vision: Verwenden Sie ein leichtes Einbettungsmodul, um den visuellen Encoder Gemma 4 zu ersetzen. Dieses Modul enthält nur 1 Matrixmultiplikation, Positionseinbettung und Normalisierungsoperationen, wodurch das Modell-Backbone-Netzwerk die visuelle Verarbeitung direkt übernehmen kann.
Audio: Google hat den Audio-Encoder vollständig entfernt und projiziert das rohe Audiosignal in denselben dimensionalen Raum wie das Text-Markup.
Probieren Sie das Modell aus und laden Sie es herunter:
Derzeit ist die Gemma 4 12B-Version auf mehreren Plattformen verfügbar. Interessierte Entwickler können es direkt in Ollama usw. erleben oder zu HuggingFace oder Kaggle gehen, um die Modellgewichtsdatei herunterzuladen. Entwickler können Unsloth auch für eine effiziente Feinabstimmung verwenden, um die benötigte Version anzupassen.
Ollama: https://ollama.com/library/gemma4
HuggingFace: https://huggingface.co/collections/google/gemma-4
Unsloth: https://unsloth.ai/docs/models/gemma-4