Am 24. November kündigte Microsoft die Einführung des 7B-Parameter-KI-Modells Fara-7B an, das als „Computer Use Agent (CUA)“ positioniert ist und komplexe Aufgaben direkt auf dem lokalen Gerät des Benutzers ausführen kann. Fara-7B erreicht nicht nur die beste Leistung im gleichen Maßstab, sondern befreit KI-Agenten auch von der Abhängigkeit von riesigen Cloud-Modellen und erreicht so eine geringe Latenz und stärkere Datenschutzgarantien auf Systemen mit begrenzten Ressourcen.
Berichten zufolge geht die Architektur von Fara-7B direkt auf die Datensicherheitsanforderungen ein, die Unternehmensanwendern am meisten am Herzen liegen. Da das Modell so rationalisiert ist, dass es lokal ausgeführt werden kann, können Benutzer sensible Arbeitsabläufe (wie die interne Kontoverwaltung oder die Verarbeitung vertraulicher Daten) automatisieren, ohne dass die relevanten Informationen jemals das lokale Gerät verlassen, was den Datenschutz und die Compliance erheblich verbessert.
Fara-7B interagiert mit Webseiten durch „Screen-Viewing-Operationen“. Es verwendet Screenshots, um das Seitenlayout wie Menschen „visuell wahrzunehmen“, indem es Koordinaten zum Ausführen von Klicks, Eingaben, Scrollen und anderen Aktionen vorhersagt, und verlässt sich nicht auf die zugrunde liegende Barrierefreiheitsbaumstruktur des Browsers. Diese Methode, ausschließlich mit visuellen Informationen auf Pixelebene zu „operieren“, ermöglicht es, auf Websites mit verwirrenden Codestrukturen und schwer zu analysierenden Seiten ordnungsgemäß zu funktionieren.

Yash Lara, Senior Product Manager bei Microsoft Research, sagte, dass durch die vollständig lokale Verarbeitung visueller Eingaben echte „Pixel-Souveränität“ erreicht wird, wodurch Automatisierungs- und Datenschlussprozesse lokal bleiben und so die Compliance-Anforderungen stark regulierter Branchen wie der Medizin- und Finanzbranche erfüllt werden.
In Standardtests wie WebVoyager beträgt die Aufgabenerfolgsquote von Fara-7B 73,5 %, was besser ist als bei Modellen wie GPT-4o (65,1 %) und UI-TARS-1.5-7B (66,4 %), die mehr Ressourcen verbrauchen. Gleichzeitig benötigt Fara-7B im Durchschnitt nur 16 Schritte, um die Aufgabe zu erledigen, während UI-TARS-1.5-7B 41 Schritte benötigt, was die Effizienz deutlich verbessert. Darüber hinaus weist Fara-7B das beste Preis-Leistungs-Verhältnis zwischen Genauigkeit und Kosten auf.

Allerdings betonte Microsoft auch, dass dieses Modell immer noch Probleme mit allgemeinen KI-Systemen habe, etwa Halluzinationen und Fehler bei der Verarbeitung komplexer Anweisungen. Um Risiken zu reduzieren, führt Fara-7B einen „Schlüsselpunkt“-Mechanismus ein: Bevor personenbezogene Daten des Benutzers oder irreversible Aktionen (z. B. das Versenden von E-Mails oder Finanztransaktionen) einbezogen werden, pausiert das Modell aktiv und fordert die Bestätigung des Benutzers an. Microsoft hat eine unterstützende Benutzeroberfläche für die Mensch-Computer-Interaktion (Magenic-UI) entwickelt, die es Benutzern ermöglicht, rechtzeitig einzugreifen und übermäßige Unterbrechungen zu vermeiden.
Fara-7B wurde mithilfe eines „Wissensdestillations“-Ansatzes entwickelt, um eine große Anzahl erfolgreicher Fälle von Multiagentensystemen (145.000 von Magentic-One generierte autonome Navigationstrajektorien) zu komprimieren und in ein einziges Modell umzuwandeln. Sein Basismodell ist Qwen2.5-VL-7B, das über ein Kontextfenster von bis zu 128.000 Wörtern und leistungsstarke Funktionen zur Ausrichtung von Text und visuellen Elementen verfügt. Der gesamte Prozess konzentriert sich auf die überwachte Feinabstimmung, die es dem Modell ermöglicht, die Demonstrationen menschlicher Experten zu „nachahmen“.

Für die Zukunft betonte Microsoft, dass man die Größe des Modells nicht blind vergrößern werde, sondern sich darauf konzentrieren werde, „kleine Modelle intelligenter und sicherer zu machen“. Der Folgeplan besteht darin, den Reinforcement-Learning-Mechanismus (RL) in der synthetischen Umgebung in das Training einzuführen, damit Fara-7B autonom in der Sandbox-Umgebung lernen kann.
Derzeit wurde Fara-7B über das MIT-Protokoll auf den Plattformen Hugging Face und Microsoft Foundry veröffentlicht, was eine kommerzielle Nutzung ermöglicht. Microsoft erinnert jedoch daran, dass das Modell noch nicht die Produktionsstufe erreicht hat und hauptsächlich für die Entwicklung und Erprobung von Prototypen geeignet ist.