Warum ein Senegalese plötzlich Deutsch spricht

Das schafft eine kommunikative Nähe, die für unseren Podcast wichtig ist. Denn wir wollen Mouhameds Familie verstehen, seinen Angehörigen nahe kommen, ihre Gedanken und Gefühle verstehen. Was war Mouhamed für ein Mensch? Wie denken sie über seine Flucht? Wie haben sie von seinem Tod erfahren? Und was erwarten sie von der deutschen Polizei und den Ermittlungen?

Im Fernsehen würden wir die auf Französisch geführten Interviews vermutlich simultan übersetzen, wir nennen das "Voice-over". Also kurz das französische Original stehen lassen und dann spricht eine Stimme aus unserer Redaktion den übersetzten Text auf Deutsch drüber. Vieles von den Emotionen des Interviewten transportiert sich für die Zuschauerinnen und Zuschauer über das Bild, den Gesichtsausdruck des Menschen.

Emotionen hörbar machen - und verstehen

Und das war unser Problem für den Podcast: Diese Emotionen, der Schmerz, die Trauer, die Verzweiflung, auch die Wut, transportieren sich für unsere Hörerinnen und Hörer nur über die Stimme. Über die Art, wie Sidy Dramé mit Catherine spricht. Wie laut oder leise, wie stockend oder aufgeregt, wie klar oder doch mit belegter Stimme. Wie also transportieren wir alles das und gleichzeitig auch die Inhalte dessen, was er sagt? Denn er spricht Französisch, das können sicherlich längst nicht alle, die unseren Podcast hören.

Sidy Dramé in Dortmund | Bildquelle: WDR

Wir können klassisch mit Voice-over arbeiten, dann bekommt man von den in der Stimme und Spreche liegenden Emotionen nicht viel mit. Wir könnten das Französische frei stehen lassen und es vorher oder nachher inhaltlich übersetzen. Das macht es für die Hörerinnen und Hörer schwerer, zu folgen - und es kostet Zeit.

Doch dann stießen wir auf die Möglichkeiten, die Künstliche Intelligenz bietet: KI kann inzwischen Stimmen klonen. Die KI bekommt Stimmproben der entsprechenden Person und in der Emotionalität, in der sie die Sprechweise klonen soll. Damit lernt sie die Stimme. Dann füttern wir sie mit dem von uns Menschen korrekt übersetzten Text des Original-Tons. Heraus kommt die Stimme von Sidy Dramé, die das sagt, was der echte Sidy uns auf Französisch gesagt hat - nur eben auf Deutsch. Und auf die Art und Weise, die in der Original-Sprachprobe zu hören war, mit diesen Untertönen und Gefühlen. Und damit plötzlich ganz nah am Ohr der Hörerinnen und Hörer. Wir haben uns für die Nutzung eines Programms von Elevenlabs entschieden.

Adrian Breda, der ich bei uns im Team um den KI-Einsatz gekümmert hat: "Auch, wenn man an einigen Stellen noch hört, dass hier kein Mensch, sondern eine Maschine spricht: Nach einigem Ausprobieren und Feilen hat die KI erstaunlich hörenswerte O-Töne geliefert."

KI-Einsatz unter bestimmten Bedingungen

Wir haben uns aber gefragt: Können wir das machen? Wie echt ist das noch? Und wie kommt das bei euch an? - Daher haben wir uns bestimmte Bedingungen selbst auferlegt:

Sidy Dramé muss damit einverstanden sein, was wir mit seiner Stimme machen.
Wir müssen die KI-generierten Töne kennzeichnen, den Hörerinnen und Hörern im Podcast sagen, was wir gemacht haben.
Wir stellen später auch ein Sprachversion von Folge 3 zur Verfügung, in der die Töne im französischen Original zu hören sind, damit sich jeder, der skeptisch ist, die Originale anhören kann.
Wir schaffen mit diesem Artikel hier Transparenz über unsere Überlegungen.

Außerdem hat sich ein Gremium im WDR mit unserem Plan beschäftigt, in dem sich KI-Experten aus verschiedenen Blickwinkeln jeden geplanten KI-Einsatz im WDR anschauen, diskutieren, bewerten und dem am Ende zustimmen müssen. Denn es darf nicht die Glaubwürdigkeit des Produkts darunter leiden.

Hörerlebnis schaffen - Vertrauen sichern

Uns ist wichtig, dass die Hörerinnen und Hörer das bestmögliche Hörerlebnis bei diesem Podcast haben, so intensiv wie möglich in die Hörwelten eintauchen können, die wir in jeder einzelnen Folge schaffen. Gleichzeitig sollen sie uns zu 100% vertrauen, dass wir gewissenhaft und offen an alle Fragen rangegangen sind, dass all unser Material authentisch ist. Denn "KI" steht leider ja auch in ganz vielen Fällen für Fälschung, für Vertrauensmissbrauch. Diese Gefahr wollen wir für uns ausschließen.

Emotionen hörbar machen - und verstehen

KI-Einsatz unter bestimmten Bedingungen

Hörerlebnis schaffen - Vertrauen sichern

Mehr vom WDR zum Thema Künstliche Intelligenz