Quelle: Deepmind

Deepmind vertont mittels KI Videos

Da bisherige KI-Modelle bloss stummes Videomaterial generieren, hat Deepmind eine Video-to-Audio-KI (V2A) vorgestellt, welche Videos selbstständig vertonen kann. Öffentlich verfügbar ist diese KI jedoch in naher Zukunft nicht.

18. Juni 2024

Deepmind, Googles KI-Forschungsabteilung, stellt in seinem Blog die Video-to-Audio-Technologie (V2A) vor, mit welcher Videos durch den Einsatz von Künstlicher Intelligenz (KI) plausibel vertont werden. Die KI analysiert diesbezüglich das stumme Video, welches als Rohmaterial an die KI geliefert wird. Anschliessend wird der Clip so vertont, dass dem Video durch passende Soundtracks und atmosphärische Hintergrundgeräusche Leben eingehaucht wird, wie Google verspricht. Nebst dem Hinzufügen von Musik ist die KI sogar in der Lage, sinnvolle und passende Dialoge zu kreieren, wenn Menschen oder – im Falle von Animationsfilmen sonstige Darsteller – miteinander interagieren.

Die KI von Deepmind kann wie viele andere KIs auch mit Texteingaben gesteuert werden. So können den im Video vorkommenden Dialogen beispielsweise die Themen vorgegeben werden, oder dem ganzen Film sogar die Grundstimmung. Auch nach einem ersten Vertonungsentwurf kann man der KI Feinjustierungs-Wünsche mitgeben, um gewisse Szenen anzupassen. Längere Gespräche versucht die KI jedoch mit Lippensynchronisation zu analysieren, um den passenden Dialog herzustellen, der dem Bild entspricht. Deepmind schreibt jedoch, dass dieser Punkt noch nicht abschliessend entwickelt ist. Voraussetzung für eine saubere Vertonung ist ausserdem eine hohe Qualität des Videos. Filme in niedriger Auflösung oder mit Artefakten können durch die KI nicht durchgehend analysiert werden.

Deepmind schreibt abschliessend, dass V2A noch nicht für die Öffentlichkeit verfügbar ist. Derzeit sammelt das Unternehmen Erkenntnisse sowie Feedback von Filmemachern und Kreativschaffenden, um die Technologie zu verbessern. Ausserdem wird die KI noch zusätzlichen Sicherheitstests unterzogen, bevor sie zugänglich gemacht wird, um Missbrauch vorzubeugen. (dok)

Kritik an OpenAI und Deepmind: Angestellte fordern Transparenz

5. Juni 2024 - Die Forschung von KI-Unternehmen hinter verschlossenen Türen und mit mangelhafter Regulierung sei ein zu grosses Risiko, so einige Angestellte von renommierten KI-Unternehmen. Sie fordern mehr Transparenz im Umgang mit Risiken und Schutz für Kritiker.

OpenAIs Sora wandelt Textprompts in Videos um

19. Februar 2024 - Das neue Text-to-Video-Modell Sora von OpenAI generiert aus simplen Texteingaben kurze Filme, die erstaunlich professionell daherkommen. Nutzbar vorerst für wenige Risokobewertungsexperten, dürfte Sora die Videoerstellung gehörig aufmischen, sobald es allgemein verfügbar wird.

Meta will künftig KI-generierte Inhalte kennzeichnen

7. Februar 2024 - Was ist echt, was nicht? KI-generierte Bilder und Videos sorgen zusehends für Verunsicherung. Meta will diese Inhalte auf seinen Plattformen Facebook, Instagram und Threads künftig identifizieren und kennzeichnen.

Artikel kommentieren