Deepmind, Googles KI-Forschungsabteilung, stellt in seinem
Blog die Video-to-Audio-Technologie (V2A) vor, mit welcher Videos durch den Einsatz von Künstlicher Intelligenz (KI) plausibel vertont werden. Die KI analysiert diesbezüglich das stumme Video, welches als Rohmaterial an die KI geliefert wird. Anschliessend wird der Clip so vertont, dass dem Video durch passende Soundtracks und atmosphärische Hintergrundgeräusche Leben eingehaucht wird, wie
Google verspricht. Nebst dem Hinzufügen von Musik ist die KI sogar in der Lage, sinnvolle und passende Dialoge zu kreieren, wenn Menschen oder – im Falle von Animationsfilmen sonstige Darsteller – miteinander interagieren.
Die KI von Deepmind kann wie viele andere KIs auch mit Texteingaben gesteuert werden. So können den im Video vorkommenden Dialogen beispielsweise die Themen vorgegeben werden, oder dem ganzen Film sogar die Grundstimmung. Auch nach einem ersten Vertonungsentwurf kann man der KI Feinjustierungs-Wünsche mitgeben, um gewisse Szenen anzupassen. Längere Gespräche versucht die KI jedoch mit Lippensynchronisation zu analysieren, um den passenden Dialog herzustellen, der dem Bild entspricht. Deepmind schreibt jedoch, dass dieser Punkt noch nicht abschliessend entwickelt ist. Voraussetzung für eine saubere Vertonung ist ausserdem eine hohe Qualität des Videos. Filme in niedriger Auflösung oder mit Artefakten können durch die KI nicht durchgehend analysiert werden.
Deepmind schreibt abschliessend, dass V2A noch nicht für die Öffentlichkeit verfügbar ist. Derzeit sammelt das Unternehmen Erkenntnisse sowie Feedback von Filmemachern und Kreativschaffenden, um die Technologie zu verbessern. Ausserdem wird die KI noch zusätzlichen Sicherheitstests unterzogen, bevor sie zugänglich gemacht wird, um Missbrauch vorzubeugen.
(dok)