Microsoft veröffentlicht Phi-4 multimodal und Phi-4 mini language models

Im Dezember 2024 brachte Microsoft Phi-4 auf den Markt, ein Small Language Model (SLM) mit der fortschrittlichsten Leistung seiner Klasse. Heute erweitert Microsoft die Phi-4-Serie um zwei neue Modelle: Phi-4-multimodal und Phi-4-mini. Das neue multimodale Modell Phi-4 unterstützt Sprache, Vision und Text gleichzeitig, während sich Phi-4-mini auf textbasierte Aufgaben konzentriert.

Phi-4-multimodal ist ein 5.6B-Parametermodell und das erste multimodale Sprachmodell von Microsoft, das Sprache, Vision und Textverarbeitung in einer einheitlichen Architektur integriert. Wie in der folgenden Tabelle gezeigt, erzielt Phi-4-multimodal in mehreren Benchmarks eine bessere Leistung im Vergleich zu anderen bestehenden hochmodernen omnidirektionalen Modellen wie Googles Gemini2.0Flash und Gemini2.0FlashLite.

Bei sprachbezogenen Aufgaben übertrifft Phi-4-multimodal professionelle Sprachmodelle wie WhisperV3 und SeamlessM4T-v2-Large sowohl bei der automatischen Spracherkennung (ASR) als auch bei der Sprachübersetzung (ST). Das Modell führte die HuggingFaceOpenASR-Rangliste mit einer erstaunlichen Wortfehlerrate von 6,14 % an.

Bei visuellen Aufgaben schnitt Phi-4-multimodal im mathematischen und naturwissenschaftlichen Denken gut ab. Dieses neue Modell ist mit beliebten Modellen wie Gemini-2-Flash-lite-preview und Claude-3.5-Sonnet vergleichbar oder übertrifft diese sogar in Bezug auf allgemeine multimodale Fähigkeiten wie Dokument- und Diagrammverständnis, OCR und visuelles wissenschaftliches Denken.

Phi-4-mini ist ein 3,8-B-Parametermodell, das mehrere beliebte groß angelegte LLMs bei textbasierten Aufgaben übertrifft, darunter Argumentation, Mathematik, Codierung, Befehlsfolge und Funktionsaufruf.

Um die Sicherheit dieser neuen Modelle zu gewährleisten, arbeitete Microsoft mit internen und externen Sicherheitsexperten zusammen, um Tests durchzuführen und vom Microsoft AI Red Team (AIRT) entwickelte Strategien zu übernehmen. Sowohl Phi-4-mini- als auch Phi-4-multimodal-Modelle können auf dem Gerät bereitgestellt werden, nachdem sie mit ONNX Runtime für plattformübergreifende Benutzerfreundlichkeit weiter optimiert wurden, wodurch sie für kostengünstige Anwendungsszenarien mit geringer Latenz geeignet sind.

Sowohl Phi-4-multimodale als auch Phi-4-mini-Modelle stehen Entwicklern jetzt in AzureAIFoundry, HuggingFace und NVIDIAAPICatalog zur Verfügung. Entwickler können die technische Dokumentation konsultieren, um den Zweck des empfohlenen Modells und seine Einschränkungen zu verstehen.

Diese neuen Phi-4-Modelle stellen einen großen Fortschritt in der effizienten künstlichen Intelligenz dar und bringen leistungsstarke multimodale und textbasierte Fähigkeiten in eine Vielzahl von Anwendungen der künstlichen Intelligenz.