Das Facebook-Mutterhaus
Meta präsentiert Voicebox, eine generative Künstliche Intelligenz für Sprache, lanciert diese aber trotz ihrer Vielseitigkeit aus Angst vor Missbrauch noch nicht, wie das Unternehmen meldet und sich in dieser
Meldung darauf beschränkt, zu zeigen, was Voicebox kann und wie es funktioniert.
Demnach kann das generative KI-Modell Audio-Dateien editieren, sampeln und verändern ohne dafür speziell durch kontextbezogenes Lernen trainiert worden zu sein. Dabei produziert Voicebox Audioclips und kann zuvor aufgenommenes Audiomaterial bearbeiten, ohne den Inhalt und den Stil des Materials zu verändern. Zudem kann das Modell Inhalte in sechs Sprachen – Englisch, Französisch, Deutsch, Spanisch, Polnisch oder Portugiesisch – produzieren.
Des Weiteren könnte Voicebox in Zukunft die Bearbeitung von Audiospuren erleichtern, um sehbehinderten Menschen die Möglichkeit zu geben, schriftliche Nachrichten von Freunden in ihrer Stimme zu hören, oder damit Menschen eine Fremdsprache mit ihrer eigenen Stimme sprechen könnten.
Die Vielseitigkeit von Voicebox ermögliche viele Aufgaben, so
Meta. Als Beispiel nennt das Unternehmen etwa die Text-zu-Sprache-Synthese. Mit einem Audiobeispiel, das zwei Sekunden lang ist, kann Voicebox den Audiostil anpassen und für die Text-to-Speech-Erzeugung verwenden. Ausserdem kann die Sprach-KI einen durch Störgeräusche wie Hundegebell unterbrochenen Teil der Rede wiederherstellen oder falsch gesprochene Wörter ersetzen, ohne dass die gesamte Rede neu aufgezeichnet werden muss, und Textpassagen oder Sprachproben in den genannten sechs Sprachen können in jeder dieser Sprachen vorgelesen werden, selbst wenn die Sprachprobe und der Text in verschiedenen Sprachen sind.
(abr)