Künstliche Intelligenz simuliert Stimmen

Lesedauer 2 Minuten

Wie wäre es, fragte sich Ian Goodfellow 2014, wenn man mustererkennende Systeme für künstliche Intelligenz (KI) ihre Trainingsbeispiele selbst erzeugen ließe? Dann wäre nur noch ein Bruchteil „echter“ Daten nötig anstatt Millionen Bilder von Tieren oder Menschen.

Dazu lässt man zwei KIs quasi gegeneinander spielen. Die eine generiert Bilder oder Töne, die andere versucht, Fehler darin aufzuspüren. Am Ende ist der künstliche Output so gut, dass selbst Menschen ihn für echt halten. Generative Adversarial Network (GAN) nannte Goodfellow seine bahnbrechende Erfindung.

Wie GANs funktionieren und Bilder manipuliert, erklärt der Youtuber Xander Steenbrugge auf seinem Kanal Arxiv Insights:

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Sinnvolle Täuschungen

Goodfellows Ansatz machte Karriere – allerdings in einer Weise, die der KI-Forscher wohl so nicht erwartet hätte. Als gezielt zu Desinformation und Täuschung eingesetzte Fälschungen sind die von GANs produzierten künstlichen Videos, Bilder und Töne zum Problem geworden.

Dabei kann man solche „Deepfakes“ durchaus sinnvoll einsetzen, wie etwa die Zeichentrickserie „Die Simpsons“ zeigt. Dort wurde die Stimme der 2013 verstorbenen Synchronsprecherin Marcia Wallace für einen letzten Auftritt ihrer Figur „Edna Krababbel“ wiederbelebt. Grundsätzlich sei es möglich, sämtliche Stimmen der Comicserie künstlich zu erzeugen, so der kanadische KI-Forscher Tim McSmythurs gegenüber Wired.

Homer Simpson spielt Julia Roberts in Notting Hill:

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

20 Sätze reichen

All das ist mit immer weniger Aufwand möglich. Lediglich 20 kurze Sätze reichen Replica Studios, einem Start-up aus Australien, nach eigenen Angaben für die Erzeugung einer KI-Stimme. Das israelische Start-up deepdub will mittels KI-Sprachsynthese Schauspieler gleich noch in sämtlichen anderen Sprachen sprechen lassen – und das, ohne die Charakteristik der jeweiligen Stimme zu verlieren.

Noch zu wenig Emotionen

Nur mit einem haben solche Systeme nach wie vor Probleme: Emotionen. Gerade wenn sie aus wenigen Daten generiert werden, klängen künstliche Stimmen oft emotional flach, so Forscher McSmythurs. Sprecher und Sprecherinnen würden seiner Meinung nach auch noch in Zukunft gebraucht. Denn schließlich handele es sich um Menschen. Und die machten bekanntlich „einen guten Job darin, menschlich zu sein.“

(Text: Klaus Lüber)

Mehr Input

Service für alle, die jetzt zuhause arbeiten

Das aktuelle Heft als PDF zum Download

  • Menschlich: Das smarte Krankenhaus in Essen
  • Graphen: Ultradünn, flexibel und stahlhart
  • Chatbots: Sollten nicht „Behördisch“ sprechen
Ja, ich will den Datareport lesen
Illustration:
close-link