Copilot+PC ist der erste Computer, der kleine Sprachmodelle (SLM) auf dem Gerät ausführt. Der Vorteil dieses Ansatzes besteht darin, dass er bei Aufgaben wie der Bild- oder Textgenerierung wesentlich schneller Ergebnisse liefert als die cloudbasierte Copilot-Anwendung. Jetzt hat Microsoft AIDevGallery auf den Markt gebracht, eine einfache Möglichkeit, Funktionen der künstlichen Intelligenz auf dem Gerät in jede App zu integrieren.
Die AIDevGallery-App richtet sich an Entwickler, die mehrere Modelle zur Integration von Funktionen der künstlichen Intelligenz in ihre Apps ausprobieren möchten. Die App bietet über 25 Beispiele, die Benutzer herunterladen und auf ihren Geräten ausführen können. Darüber hinaus können Projekte oder Quellcode direkt in die Anwendung exportiert und sofort ausgeführt werden. Es funktioniert unter Windows 10 und 11 und unterstützt sowohl x64- als auch ARM64-Architekturen.
Derzeit besteht die einzige Möglichkeit, darauf zuzugreifen, darin, das Projekt in Visual Studio zu erstellen und es dann auszuführen. Darüber hinaus sind mindestens 20 GB Speicherplatz und eine Multi-Core-CPU erforderlich. Außerdem wird eine GPU mit 8 GB VRAM empfohlen.
Die Anwendung verfügt über zwei Modi: Beispiel und Modell, und das Programm unterteilt sie in Text, Bilder, Code, Audio und Video sowie intelligente Steuerelemente.
Die Modelle für die Bild- und Videogenerierung sind recht groß und erreichen knapp 5 GB. Wir beginnen mit einem kleinen Modell im Zusammenhang mit der Hochskalierung, das weniger als 100 MB groß ist. Wir haben einen Screenshot gemacht und versucht, ihn mithilfe der CPU zu skalieren, wobei wir während der Arbeit zwischen CPU und GPU gewechselt haben, um Anfragen zu bearbeiten.
In dieser virtuellen Maschine mit niedriger Konfiguration dauerte der Skalierungsvorgang weniger als 30 Sekunden und der Speicherverbrauch stieg sofort auf 1 GB. Die Anwendung zeigt eine hochskalierte Version des Bildes mit einer Auflösung von 9272*4900 an. Grafische Elemente, insbesondere Texte, werden stark beeinträchtigt und sind schwer lesbar.
Wir haben ein anderes Modell namens DetectHumanPose ausprobiert. Es kann den Standort einer Person auf einem Bild identifizieren. Es war zwar in der Lage, eine normal gehende Person genau zu identifizieren, es wurden jedoch sogar Standortmarkierungen für Screenshots unseres Desktops angezeigt, während mehrere Apps geöffnet waren.
Wir wissen nicht, wie diese Modelle in die Anwendung integriert werden, aber einige dieser Funktionen können lokal ausgeführt werden. Natürlich benötigen diese PC-Modelle mehr Speicherplatz und eine leistungsstarke CPU mit 16 GB Arbeitsspeicher oder mehr.
Lohnt es sich, ein 5-GB-Modell herunterzuladen, um Textansagen in Bilder umzuwandeln, oder 30 Sekunden zu warten, um diese Funktionalität in einer Web-App zu implementieren? Offensichtlich haben die meisten dieser Funktionen eher Nischenanwendungsfälle und Implementierungsumgebungen und sind nicht für die gesamte Benutzerbasis von Windows 11 attraktiv.