Apple hat die Begeisterung für generative KI im vergangenen Jahr gelassen beobachtet und sein ökologisches Fundament aufgebaut. Es geht auch Schritt für Schritt auf die Veröffentlichung des AiPhone im nächsten Jahr zu. Im Oktober brachte Apples Forschungsteam für maschinelles Lernen ein „Ferret“-Modell (Ferret) auf den Markt. Dieses große multimodale Modell versteht den Weltraum genauer als GPT-4v. Seit kurzem ist dieses Modell Open Source. Einfach ausgedrückt: Wenn Sie irgendwo auf einem Bild auf ein Objekt hinweisen, egal wie klein es ist, kann „Frettchen“ es klar erklären.
Diese Sensibilität für den Raum spielt eine wichtige Rolle in Apples kommendem VisionPro, das natürliche/virtuelle visuelle Wahrnehmung mit großen Sprachmodellen kombiniert. Die Autoren dieses bescheidenen Papiers sind alle Chinesen. Es hat in der Branche in letzter Zeit immer mehr Aufmerksamkeit erregt. Es hat das SOTA-Niveau im räumlichen Computing erreicht.
„Ferret“-Modellarchitektur (Quelle: FERRET: REFERANDGROUNDANYTHINGANYWHEREATANYGRANULARITY)
Apple hat kürzlich MLX auf den Markt gebracht, ein Open-Source-Framework, das große Modelle auf seinem M3-Chip trainieren und bereitstellen kann. Dies bedeutet, dass Mac-Laptop-Entwickler Anwendungen entwickeln können, die große Modelle unterstützen.
Apple hat außerdem „Lightning Large Model“ (LLMinaFlash) auf den Markt gebracht, das Flash-Speicher verwendet, um das Problem des unzureichenden großen Modellspeichers (DRAM) bei Mobiltelefonen zu lösen.
Dies ist ein Papier, das mir persönlich sehr gut gefällt. Ja, Apple, das im Geheimen arbeitete, begann auch, stillschweigend Papiere zu veröffentlichen.
In diesem Artikel geht es um ein kleines, aber kritisches Problem: Wie kann ein großes Modell in einem sehr begrenzten Speicherplatz wie einem Mobiltelefon bereitgestellt werden, und die Inferenzgeschwindigkeit sollte hoch sein, ohne den Akku zu verbrauchen?
Sein größter Vorteil besteht nicht darin, über Algorithmen zu sprechen, die auf Algorithmen basieren, sondern darin, eigene Methoden vorzuschlagen, die auf einem tiefen Verständnis der Hardware basieren und mit Algorithmen kombiniert werden. Sein Ausgangspunkt ist ausschließlich das Verbraucherdenken. Das große Modell befindet sich in der fernen Wolke. Es ist unheimlich groß und teuer. Nur indem man es in die Tasche des Benutzers steckt, können Verbraucher ein Gefühl für generative KI bekommen.
Der DRAM ist zu klein, um ein Multi-Milliarden-Modell aufzunehmen. Obwohl es im Flash-Speicher abgelegt werden kann, reicht die Bandbreite des Flash-Speichers nicht aus. Um die Belastung der Bandbreite vom Flash-Speicher bis zum DRAM zu minimieren, hat Apple zwei Technologien eingeführt: Fensterung und Zeilen-Spalten-Bündelung (Einzelheiten finden Sie im Dokument).
Getestet an zwei Modellen, OPT6.7B und FALCON7B, sind die Ergebnisse ziemlich „explosiv“. Die Größe des ausführbaren Modells ist doppelt so groß wie die des verfügbaren DRAM. Im Vergleich zur einfachen Lademethode in CPU und GPU wird die Inferenzgeschwindigkeit um das 4- bis 5-fache bzw. 20- bis 25-fache erhöht.
Nur Apple kann den Chip, das Betriebssystem und das Systemdesign aufeinander abstimmen und einen Weg finden, ein vernünftiges Kostenmodell zu erstellen.
Kürzlich hat die Leistung einer Reihe kleiner Modelle mit Milliarden von Parametern die Welt schockiert. Beispielsweise können Mistral und Phi-2 große Modelle mit Dutzenden Milliarden Parametern herausfordern; Google hat ein Gemini-Modell auf Nanoebene mit 1,8 Milliarden Parametern auf den Markt gebracht, das direkt auf Pixel-Telefonen installiert werden kann. Die Snapdragon-Chips von Qualcomm können zig Milliarden Modelle auf Parameterebene ausführen. Samsung könnte Anfang 2024 ein Galaxy S24-Telefon mit generativen KI-Gaming-Funktionen auf den Markt bringen.
Es gibt auch die vom Team der Shanghai Jiao Tong University ins Leben gerufene Inferenz-Engine PowerInfer, die ein Hindernis nach dem anderen für den Einsatz großer Modelle auf Geräteterminals, insbesondere Mobiltelefonen und Laptops, aus dem Weg geräumt hat. Es deutet auch darauf hin, dass im Jahr 2024 Verbraucherelektronikprodukte eine Welle großer Modelllade-Höhepunkte einläuten werden.
Die Einführung dieser „kleinen“ Modelle hat ein gemeinsames Merkmal: die Verwendung hochwertiger Daten, Daten auf „Lehrbuchebene“. Zweifellos können die Archive der Mainstream-Nachrichtenmedien gute Materialien für den Sprachunterricht liefern.
Apple verhandelt mit großen Medienorganisationen in den USA über den Erwerb des Archivkorpus dieser Medien für etwa 50 Millionen US-Dollar, um seine eigenen großen Modelle zu trainieren, die möglicherweise den Konversationsdienst von Siri nutzen.
Denken Sie an die Qualität dieser Schulungskorpora: Conde Nasts Vogue, New Yorker, NBCNews und IACs People, TheDailyBeast, BetterHomes, Gardens usw. Sie enthalten eine Fülle wunderschöner Texte und Bilder mit Mode- und Lifestyle-Inhalten. Enthält außerdem ausgewählte Nachrichtenartikel, Bilder und Videos.
Doch andere Mainstream-Medien zeigten wenig Interesse. In der Vergangenheit brachte ihnen die Zusammenarbeit zwischen Printmedien und sozialen Medien keinen großen Nutzen. Darüber hinaus übergaben die Medien die Nachrichten in ihren Archiven an Apple, um das große Modell zu trainieren. Auch die rechtlichen Auseinandersetzungen, die im Rahmen des Nutzungsvorgangs entstehen können, bereiteten diesen Medien Sorgen.
Apples Ansatz gilt als authentischer. Andere KI-Unternehmen oder Technologiegiganten nutzten zunächst das Korpus anderer Personen und verhandelten dann über Lizenzen, nachdem sie erwischt wurden, was zu einigen Klagen geführt hat.
Apple scheut sich davor, Daten direkt aus dem Internet zu extrahieren, weil es Wert auf den Datenschutz legt. Auch Apple darf keine Daten über seine Kunden sammeln.
Was wird Apple also im Jahr 2024 tun?
Das erste, woran jeder denkt, ist, dass es nächstes Jahr Siri, einen Sprachassistenten mit generativer KI, auf den Markt bringen wird. Es wird im Herbst 2024 das größte Highlight von iPhone16 und iOS18 sein. Einige Apple-Fans scherzten, dass sie SiriGPT starten würden. Aber das ist nur die Spitze des Eisbergs.
Der Ansatz von Riesen besteht in der Regel darin, neue Technologien zu finden, um ihre inhärenten Kernkompetenzen zu stärken und ihre Originalprodukte von der Konkurrenz abzuheben. Oberflächlich betrachtet scheint es, dass Apple sich auf seinen Lorbeeren ausruht, langsam in Richtung generative KI voranschreitet und eine konservative Folgestrategie verfolgt? Oder kann Apple seine integrierten Integrationsfähigkeiten und Produktdesignfähigkeiten in Chips, Betriebssystemen und großen Modellen wirklich nutzen, um das beste KI-Produkterlebnis zu schaffen? Die Antwort ist wahrscheinlich Letzteres.
In den letzten Jahren hat Apple Dutzende KI-Start-ups übernommen, um sie in seinen Produkten, Diensten und seinem Ökosystem einzusetzen. Es ist nur so, dass es hier keine Star-Startups gibt.
Apple macht nur Dinge, redet aber nicht darüber. Analysten haben schon lange festgestellt, dass Apples Investitionen in KI nicht geringer sind als die von Microsoft: Das Unternehmen hat Dutzende Milliarden Dollar ausgegeben, um eine Infrastruktur für die Entwicklung generativer KI-Anwendungen aufzubauen. Zuvor wurde gemunkelt, dass Apple heimlich intern sein eigenes großes Modell Ajax, AppleGPT, trainiert, und es wurde gesagt, dass es zu diesem Zeitpunkt mit GPT-3.5 gleichziehen könnte.
Doch eine Reihe aktueller Apple-Forschungsergebnisse zum Thema maschinelles Lernen zeigen, dass Apple seinen eigenen Weg geht. Große Closed-Source-Modellunternehmen, vertreten durch Microsoft, Google, Amazon, NVIDIA und OpenAI, haben die ersten Früchte rund um Modelle, Cloud und Rechenleistung geerntet.
Was Apple schätzt, ist das riesige Ökosystem, das aus seinen 2 Milliarden Geräten und ihren Nutzern besteht. Das neue iPhone-Erlebnis durch generative KI und die Verwendung großer Modelle zur Unterstützung aller Anwendungen eröffnen Apple Marktchancen für Verbraucher, die anderen Giganten nur schwer zu nehmen sind. Im Namen des Datenschutzes kontrolliert Apple den gegenseitigen Zugriff zwischen Drittanwendungen, was den Apple Store auch zu einer Goldgrube für seine zukünftigen KI-Anwendungen macht.
Ist Apple langsam? Die halluzinatorischen Probleme der generativen KI sowie Regulierung, Datenschutz, Urheberrechtsstreitigkeiten usw. werden Apple dazu veranlassen, tiefer nachzudenken und nachdenklicher darüber nachzudenken. Apple ist so zuversichtlich, weil sein integriertes Design auf allen Ebenen, einschließlich Chips, Betriebssystemen, Anwendungen, Produkten und Fertigung, letztendlich eine innovative Tiefe des Produkterlebnisses mit sich bringen wird, die für seine Konkurrenten möglicherweise immer noch schwer zu erreichen ist.
Der durch OpenAI ausgelöste „iPhone-Moment“ wurde mehrfach geschrien, aber der nächste Apple wird immer noch Apple sein.
Referenzpapiere:
https://arxiv.org/pdf/2312.11514.pdf
https://arxiv.org/pdf/2310.07704.pdf
Autor/Zhou Jiangong
Verwandte Artikel: