Auf der Build-Entwicklerkonferenz 2026 kündigte Microsoft eine bedeutende Erweiterung seiner selbst entwickelten MAI-Modellfamilie an, die vom Microsoft AI Superintelligence-Team erstellt wurde, und brachte das erste universelle Inferenzmodell MAI-Thinking-1, ein Codemodell MAI-Code-1 für GitHub Copilot und mehrere aktualisierte Versionen von Sprach-, Transkriptions- und Bilderzeugungsmodellen auf den Markt, um seine End-to-End-KI-Technologielandschaft weiter zu verbessern. Dies markiert die beschleunigte Expansion von Microsoft im Bereich grundlegender Modelle von Sprache und Bildern bis hin zu komplexen Argumentations- und Entwicklerproduktivitätsszenarien.

Microsoft sagte, dass die MAI-Modellfamilie im vergangenen Jahr weiter gewachsen sei und Anfang des Jahres MAI-Voice-1, MAI-1-preview sowie MAI-Transcribe-1 und MAI-Image-2 herausgebracht und dann MAI-Image-2.5 auf den Markt gebracht habe, das die Qualität der Textwiedergabe, stilisierter Illustrationen und kommerzieller Bilder verbessert habe. Diesmal werden auf dieser Basis neue Argumentations- und Kodierungsmodelle hinzugefügt und gleichzeitig die Produktlinien Sprache, Transkription und Bild zu einem umfassenderen Produktportfolio aufgewertet.

MAI-Thinking-1 ist das erste von Microsoft offiziell angekündigte Inferenzmodell. Es wurde vom Microsoft AI-Team von Grund auf trainiert und nicht aus anderen Modellen destilliert. Microsoft betonte, dass das Modell mit sauberen, kommerziell lizenzierten Daten auf Unternehmensebene trainiert wird und darauf ausgelegt ist, die Anforderungen von Unternehmensbenutzern an Datenkonformität und Kommerzialisierung zu erfüllen. MAI-Thinking-1 ist ein mittelgroßes Modell mit 35 Milliarden Aktivierungsparametern und unterstützt 128.000 Kontextfenster. Es ist hauptsächlich auf Szenarien wie die Ausführung komplexer Anweisungen in mehreren Schritten, die Argumentation in langen Kontexten und die Codegenerierung ausgerichtet.

Obwohl Microsoft in der Ankündigung keine detaillierten Benchmark-Daten offenlegte, zitierte das Unternehmen in seinem Blog unabhängige Testergebnisse und sagte, dass die Gesamtpräferenz der Rezensenten im Blindtest eher auf MAI-Thinking-1 als auf Claude Sonnet 4.6 von Anthropic fiel. Darüber hinaus gab Microsoft an, dass MAI-Thinking-1 im SWE-bench Pro-Code-Task-Test hinsichtlich der Codierungsleistung mit Claude Opus 4.6 vergleichbar war, was das Potenzial dieses Modells für Entwickler und komplexe technische Aufgaben zeigt. MAI-Thinking-1 befindet sich derzeit in der privaten Vorschau für ausgewählte Kunden über Microsoft Foundry.

Was die Image-Generierung betrifft, wurden das zuvor von Microsoft veröffentlichte MAI-Image-2.5 und seine „Flash-Variante“ über Microsoft Foundry für Entwickler geöffnet. Laut den neuesten von Microsoft zitierten Artikellistendaten von Arena hat MAI-Image-2.5 Googles Nano Banana Pro bei der Generierung von Textbildern übertroffen und ist unter die ersten drei der Liste gekommen. Dieses Modell wurde in PowerPoint integriert und wird schrittweise auf OneDrive eingeführt, um dem Office-Ökosystem qualitativ hochwertigere Bildgenerierungsfunktionen bereitzustellen.

Im Hinblick auf die Sprachtranskription veröffentlichte Microsoft im April dieses Jahres MAI-Transcribe-1, das die Sprach-zu-Text-Transkription in den 25 am häufigsten verwendeten Sprachen basierend auf seinen eigenen Produktnutzungsdaten unterstützt. Dieses Mal hat Microsoft die aktualisierte Version MAI-Transcribe-1.5 auf den Markt gebracht, die das branchenführende Niveau der Spracherkennungsgenauigkeit erreicht und die Anzahl der abgedeckten Sprachen auf 43 erweitert hat. Es ist geplant, dem Modell bald Streaming-Transkriptionsfunktionen hinzuzufügen, um den Anforderungen von Echtzeitszenarien gerecht zu werden.

Was die Sprachsynthese betrifft, veröffentlichte Microsoft nach der Ankündigung, dass MAI-Voice-1 im April dieses Jahres allgemein verfügbar sei, dieses Mal MAI-Voice-2 und seine Lightning-Version. Das Sprachgenerierungsmodell der neuen Generation unterstützt mehr als 15 zusätzliche Sprachen und bietet mehr Optionen für den Sprachstil zur Anpassung an umfassendere Anwendungsszenarien wie mehrsprachigen Kundenservice, Synchronisierung von Inhalten und intelligente Assistenten.

Für Entwickler-Codierungsszenarien hat Microsoft gleichzeitig MAI-Code-1 eingeführt, ein effizientes Inferenzcodemodell, das für GitHub-Workloads optimiert ist. Dieses Modell wurde in GitHub Copilot und Visual Studio Code eingeführt und bietet Unterstützung für die tägliche Codierung, Refactoring, Code-Vervollständigung und andere Szenarien. Obwohl Microsoft die konkreten Benchmark-Ergebnisse von MAI-Code-1 nicht offengelegt hat, wird diese Veröffentlichung als wichtiges Signal gewertet – Microsoft verlässt sich beim zugrunde liegenden Modell von GitHub Copilot nicht mehr vollständig auf OpenAI und Anthropic, sondern führt nach und nach selbst entwickelte Modelle ein.

Was die Vertriebskanäle angeht, kündigte Microsoft neben der Bereitstellung von Diensten für Unternehmen und Entwickler über Microsoft Foundry auch an, dass seine Modelle der MAI-Serie auf Plattformen von Drittanbietern wie Fireworks AI, Baseten und OpenRouter eingeführt werden. Gleichzeitig wurde Fireworks AI auch innerhalb von Microsoft Foundry allgemein verfügbar gemacht und bietet Unternehmenskunden mehr Architektur- und Bereitstellungsoptionen. Durch die Zusammenarbeit mit mehreren Plattformen hofft Microsoft, die Zugriffsschwelle weiter zu senken und die Implementierung von MAI-Modellen in verschiedenen Cloud- und Tool-Ökosystemen zu beschleunigen.

Aus dem Gesamtlayout erstellt Microsoft eine vollständige KI-Fähigkeitsmatrix auf Unternehmensebene unter Verwendung mehrerer Modelltypen wie MAI-Argumentation, Codierung, Sprache, Transkription und Bilder. Durch die Hinzufügung von MAI-Thinking-1 und MAI-Code-1 wurde die Stimme von Microsoft in den Bereichen komplexes Denken und Entwicklerproduktivität erheblich verbessert und außerdem eine wettbewerbsfähigere technische Basis für GitHub Copilot, Office-Serien und Kollaborationsplattformen bereitgestellt.