Chinesische Forscher des zum Alibaba-Konzern gehörenden Institute for Intelligent Computing haben das KI-Tool Emote Portrait Alive vorgestellt, das Porträt-Fotos zu einem Video animiert. In Kombination mit einer Audio-Datei lässt sich die abgebildete Person so zum Sprechen oder sogar zum Singen bringen. Anders als bei ähnlichen Modellen wird hier allerdings auf den Einsatz von 3D-Modellen verzichtet. Stattdessen kommt ein sogenanntes Diffusionsmodell zum Einsatz, das Mimik und Lippenbewegungen aus den Audiosequenzen berechnet und direkt auch die einzelnen Video-Frames generiert.
Die
Forschungsergebnisse wie auch die Funktionsweise der KI-Anwendung wurden mittlerweile veröffentlicht und auf Github wurde eine ganze Reihe von
Beispielen aufgeschaltet, welche die Möglichkeiten eindrücklich demonstrieren. So wurde etwa ein Porträt-Bild von Audrey Hepburn aus dem Film Roman Holiday zum Singen eines Ed-Sheeran-Songs gebracht. Diverse weitere Beispiele mit durch generative KI erstellten Charakteren demonstrieren die Möglichkeiten, was Sprache, Rhythmus oder Stil anbelangt. Ob und in welcher Weise die neue KI-Anwendung der Allgemeinheit zur Verfügung gestellt wird, ist offen. Vorsicht ist jedenfalls angesagt: Für die Verfasser von Fake News dürften sich damit gänzlich neue Möglichkeiten ergeben.
(rd)