Alibaba Cloud hat
angekündigt, vier Versionen seiner KI-Modelle für die Videogenerierung als Open Source bereitzustellen. Die Wan2.1-Serie, darunter Modelle mit 14 Milliarden und 1,3 Milliarden Parametern, soll Entwicklern, Forschern und Unternehmen weltweit zur Verfügung stehen.
Die Modelle ermöglichen die Erstellung von Videos aus Text- und Bildeingaben. Sie sind über die Plattformen Model Scope von
Alibaba Cloud und Hugging Face abrufbar. Alibaba Cloud streicht heraus, dass Wan2.1 als einziges Open-Source-Modell unter den Top fünf der Bench-Bestenliste für Videogenerierung rangiert. Zudem sei die Wan2.1-Serie das erste Videogenerierungsmodell, das Texteffekte sowohl in Chinesisch als auch in Englisch unterstützt. Die Modelle versprechen zudem eine realistische Darstellung komplexer Bewegungen und eine verbesserte Pixelqualität.
Das Modell T2V-14B eignet sich laut Anbieter besonders für die Erstellung von Videos mit komplexen Bewegungsabläufen und hoher Bildqualität. Das T2V-1.3B-Modell biete derweil eine ausgewogene Kombination aus Rechenleistung und Generierungsqualität, was es ideal für Entwickler und akademische Forschungsprojekte mache. Mit einem Standard-Laptop lasse sich mit T2V-1.3B beispielsweise ein fünfsekündiges Video in 480p-Auflösung in rund vier Minuten erstellen. Die Modelle I2V-14B-720P und I2V-14B-480P bieten nebst der Text-zu-Video-Funktionalität auch Bild-zu-Video-Funktionen. Anwender müssen hierbei lediglich ein einzelnes Bild zusammen mit einer kurzen Beschreibung eingeben, um dynamische Videos zu generieren. Dabei akzeptiert die Plattform Bilder in normaler Grösse und beliebigen Abmessungen.
Mit der Veröffentlichung der Modelle wolle man den Zugang zu hochentwickelten KI-Technologien erleichtern, so das chinesische Unternehmen. Unternehmen und Entwickler könnten nun mit geringeren Kosten hochwertige visuelle Inhalte erzeugen.
(mw)