Manus hat sich kürzlich aus dem chinesischen Markt zurückgezogen, die Inhalte seiner inländischen Social-Media-Konten gelöscht und ist mit aller Kraft in ausländische Märkte vorgedrungen. Die offizielle Erklärung lautete, dass der Grund hauptsächlich in der Anpassung der Betriebseffizienz und der internationalen Ausrichtung liege. Am 19. Juli, Pekinger Zeit, veröffentlichte Manus-Mitbegründer Ji Yichao einen technischen Blog, in dem er zum ersten Mal aus technischer Sicht reagierte und die Erfahrungen und Lehren aus der Forschung und Entwicklung sowie Schulung von Agenten seit der Gründung des Unternehmens zusammenfasste.


Aus technischer Sicht sagte Ji Yichao, dass Manus sich auf Kontext-Engineering konzentrieren und mithilfe von strukturellem „Speicher“ und Prozessen eine schnelle Produktiteration erreichen werde. Dabei geht es vor allem darum, auf den Kontext zu setzen, nicht mehr Modelle zu trainieren, die Bedeutung der Trefferquote von KV-Cache (Key-Value Cache, ein Caching-Mechanismus) hervorzuheben, keine Tools dynamisch hinzuzufügen und das Dateisystem zum Hosten von persistentem Kontext zu verwenden. Der Kern besteht darin, die Trainingskosten des zugrunde liegenden Modells einzusparen und sich auf die Verbesserung der Trainingseffizienz zu konzentrieren.

In großen Modellen bezieht sich Kontext normalerweise auf die Sammlung von Informationen, auf die sich das Modell bei der Verarbeitung von Aufgaben oder der Generierung von Ausgabeinhalten bezieht. Es kann dem Modell dabei helfen, sein Verständnis zu verbessern, die Aufgabenleistung zu verbessern und die Ausgabekohärenz zu verbessern. Zuvor betonte Yang Zhilin, Gründer von Dark Side of the Moon Kimi, in einem Interview die Bedeutung des Kontexts. Er sagte, dass der ultimative Wert von Ai-native-Produkten (durch KI definierte Produktform) darin besteht, personalisierte Interaktion bereitzustellen, und verlustfreier langer Kontext (LosslessLongContext) der Schlüssel zum Erreichen dieses Ziels ist. Er urteilte, dass es auf lange Sicht keine Feinabstimmung des Modells geben dürfe. Der Interaktionsverlauf zwischen dem Benutzer und dem Modell ist der beste Personalisierungsprozess, und die Long-Context-Technologie kann diese Interaktionsverläufe besser aufzeichnen und nutzen.

Darüber hinaus ist die Trefferquote des KV-Cache von entscheidender Bedeutung, vor allem weil eine hohe Trefferquote die Inferenzeffizienz verbessern, die Ressourcennutzung optimieren und die Rechenkosten senken kann. Auf dieser Grundlage wird der KV-Cache häufig als Effizienzkern der Inferenzphase des Transformer-Modells bezeichnet.

Die Entscheidung, die Trainingseffizienz anhand der oben genannten Aspekte zu verbessern, anstatt vom zugrunde liegenden Modell auszugehen, ist eine Lektion, die Ji Yiguo im Laufe der Jahre gelernt hat. Er sagte, als er sein letztes Unternehmen (Peak Labs) gründete, beschloss das Team, Modelle für die offene Informationsextraktion und semantische Suche von Grund auf zu trainieren, doch bald darauf erschienen die GPT-3-Modelle von OpenAI und die Flan-T5-Modelle von Google, und die vom Team von Grund auf neu entwickelten internen Modelle wurden über Nacht irrelevant. „Ironischerweise markieren diese Modelle den Beginn des kontextuellen Lernens und einen neuen Weg nach vorne.“ sagte Ji Yichao.

Basierend auf früheren Erkenntnissen investierte das Team nach dem Start von Manus nicht mehr in die Forschung und Entwicklung von Basismodellen, sondern entschied sich zwischen der Verwendung von Open-Source-Basismodellen zur Schulung von End-to-End-Agenten und der Entwicklung von Agenten auf der Grundlage der Kontextlernfähigkeiten modernster Modelle. Obwohl das Manus-Team durch die Lehren aus Peak Labs erkannte, wie wichtig der Kontext ist, war es nicht einfach. Es waren vier Anpassungen des Agenten-Frameworks erforderlich, um die lokal optimale Lösung zu erreichen.

Es ist jedoch zu beachten, dass diese Strategie immer noch Einschränkungen aufweist, insbesondere im Hinblick auf den ChatGPT-Agenten, der gerade von OpenAI veröffentlicht wurde. Der Hauptgrund dafür ist, dass der ChatGPT-Agent auf dem dedizierten Modell von OpenAI basiert und eine End-to-End-Schulung übernimmt, die komplexe Aufgaben besser bewältigen kann. Obwohl Manus die Effizienz verbessern kann, ist es immer noch auf die Kombination mehrerer externer Modelle und die technische Optimierung angewiesen und ist in Bezug auf Konsistenz und Genauigkeit der Aufgabenausführung etwas schlechter.

Als Manus außerdem in den internationalen Markt eintrat, brachte OpenAI mit seinen zugrunde liegenden Modellvorteilen die Agentenbranche an einen Wendepunkt und zog mehr Entwickler und Benutzer auf die Plattformen großer Hersteller. Obwohl Startups in vertikalen Bereichen Überlebenschancen haben, stehen sie dennoch zwangsläufig vor der Herausforderung, um Marktanteile zu konkurrieren. Gerade wenn Agentenprodukte derzeit mit Schwierigkeiten wie ernsthafter Homogenität, unklaren Geschäftsmodellen und hohen Kosten konfrontiert sind, reichen Highlights im Kontext-Engineering und anderen Aspekten nicht aus, um Startups hervorzuheben. Das Team muss weiterhin technische Strategien optimieren und differenzierte Entwicklungspfade erkunden.