Meituan LongCat-Video-Videogenerierungsmodell veröffentlicht, das 5 Minuten lange Videos ausgeben kann

Am 27. Oktober gab Meituan offiziell bekannt, dass das Meituan LongCat-Team das Videogenerierungsmodell LongCat-Video offiziell veröffentlicht hat. Dieses Modell basiert auf der Diffusion Transformer-Architektur und kann die drei Kernaufgaben Wensheng-Video, Tusheng-Video und Videofortsetzung unterstützen und behauptet, das fortgeschrittene Niveau unter den Open-Source-Modellen erreicht zu haben.

Berichten zufolge kann LongCat-Video hochauflösende Videos mit einer Auflösung von 720p und einer Bildrate von 30 erzeugen. Sein herausragendes Merkmal ist, dass es nativ kohärente Videoinhalte von bis zu 5 Minuten generieren kann. Durch das Vortraining der Videofortsetzung, das Blockieren spärlicher Aufmerksamkeit und andere Mechanismen zielt das Modell darauf ab, häufige Probleme wie Bildunterbrechungen und Qualitätsverschlechterungen bei der Generierung langer Videos zu lösen und die Konsistenz des Timings und der Bewegungsrationalität aufrechtzuerhalten.

In Bezug auf die Effizienz verwendet das Modell Technologien wie zweistufige Erzeugung, Blocksparse-Aufmerksamkeit und Modelldestillation. Nach Angaben von Beamten wird die Inferenzgeschwindigkeit um mehr als das Zehnfache erhöht. Die Anzahl der Modellparameter beträgt 13,6 Milliarden und es hat in öffentlichen Tests wie VBench eine starke Textausrichtung und Bewegungskohärenz gezeigt.

Als technischer Versuch, ein „Weltmodell“ zu erstellen, kann LongCat-Video in Zukunft auf Szenarien angewendet werden, die eine langfristige Modellierung erfordern, wie etwa autonome Fahrsimulationen und verkörperte Intelligenz. Die Veröffentlichung dieses Modells markiert für Meituan einen wichtigen Schritt in den Bereichen Videogenerierung und Simulation der physischen Welt.