Künstliche Intelligenz simuliert Stimmen

Lesedauer 2 Minuten

Wie wäre es, fragte sich Ian Goodfellow 2014, wenn man mustererkennende Systeme für künstliche Intelligenz (KI) ihre Trainingsbeispiele selbst erzeugen ließe? Dann wäre nur noch ein Bruchteil „echter“ Daten nötig anstatt Millionen Bilder von Tieren oder Menschen.

Dazu lässt man zwei KIs quasi gegeneinander spielen. Die eine generiert Bilder oder Töne, die andere versucht, Fehler darin aufzuspüren. Am Ende ist der künstliche Output so gut, dass selbst Menschen ihn für echt halten. Generative Adversarial Network (GAN) nannte Goodfellow seine bahnbrechende Erfindung.

Wie GANs funktionieren und Bilder manipuliert, erklärt der Youtuber Xander Steenbrugge auf seinem Kanal Arxiv Insights:

Sinnvolle Täuschungen

Goodfellows Ansatz machte Karriere – allerdings in einer Weise, die der KI-Forscher wohl so nicht erwartet hätte. Als gezielt zu Desinformation und Täuschung eingesetzte Fälschungen sind die von GANs produzierten künstlichen Videos, Bilder und Töne zum Problem geworden.

Dabei kann man solche „Deepfakes“ durchaus sinnvoll einsetzen, wie etwa die Zeichentrickserie „Die Simpsons“ zeigt. Dort wurde die Stimme der 2013 verstorbenen Synchronsprecherin Marcia Wallace für einen letzten Auftritt ihrer Figur „Edna Krababbel“ wiederbelebt. Grundsätzlich sei es möglich, sämtliche Stimmen der Comicserie künstlich zu erzeugen, so der kanadische KI-Forscher Tim McSmythurs gegenüber Wired.

Homer Simpson spielt Julia Roberts in Notting Hill:

20 Sätze reichen

All das ist mit immer weniger Aufwand möglich. Lediglich 20 kurze Sätze reichen Replica Studios, einem Start-up aus Australien, nach eigenen Angaben für die Erzeugung einer KI-Stimme. Das israelische Start-up deepdub will mittels KI-Sprachsynthese Schauspieler gleich noch in sämtlichen anderen Sprachen sprechen lassen – und das, ohne die Charakteristik der jeweiligen Stimme zu verlieren.

Noch zu wenig Emotionen

Nur mit einem haben solche Systeme nach wie vor Probleme: Emotionen. Gerade wenn sie aus wenigen Daten generiert werden, klängen künstliche Stimmen oft emotional flach, so Forscher McSmythurs. Sprecher und Sprecherinnen würden seiner Meinung nach auch noch in Zukunft gebraucht. Denn schließlich handele es sich um Menschen. Und die machten bekanntlich „einen guten Job darin, menschlich zu sein.“

(Text: Klaus Lüber)

Mehr Input

Start-up Deepdub bietet KI-Sprachsynthese
Deepdub.ai
Tim McSmythurs lässt Prominente sprechen
SpeakingofAI
Deepfakes als Kollateralschaden einer guten Idee
Nzz.ch
Können die Simpsons ihre Sprecher durch KI ersetzen?
Wired.com
Aufwändiger Deepfake von Richard Nixon
Scientificamerican.com
Virtuelle Influencer und Doppelgänger
Datareport.online
KI bringt Stimme von verstummtem Schauspieler zurück
Mixed.de

Sinnvolle Täuschungen

20 Sätze reichen

Noch zu wenig Emotionen

Mehr Input

Das aktuelle Heft als PDF zum Download