Sprachkonvertierung

Eine Person mit der Stimme einer anderen Person sprechen lassen

Was ist Sprachkonvertierung?

Mit der Stimmkonvertierung können Sie die Stimme einer Person in die einer anderen Person umwandeln. Dabei kommt ein Prozess namens „Stimmklonen“ zum Einsatz, um die Zielstimme – also die Stimme, in die wir konvertieren – zu kodieren und die gesprochene Nachricht so zu generieren, dass sie mit der Identität des Zielsprechers übereinstimmt, die ursprüngliche Intonation jedoch erhalten bleibt.

Anwendung

Hochwertige Sprachkonvertierungs- und Sprachklonierungstechnologien haben das Potenzial, die Art und Weise der Inhaltserstellung und -bereitstellung sowie der Interaktion mit diesen in zahlreichen Branchen zu revolutionieren. Sie versprechen eine Optimierung der Produktionszeit und -kosten und bieten denjenigen, die ihre Meinung äußern, um Konvertierungsalgorithmen zu trainieren, Möglichkeiten, passive Gebühren zu verdienen.

  • Beim Filmemachen könnten Schauspieler ihre Stimmendatenbanken mit Produzenten teilen, um Audiospuren zu erstellen, ohne zum Set oder Studio reisen zu müssen;
  • Falsch ausgesprochene Textzeilen könnten in der Nachbearbeitung viel effektiver neu aufgezeichnet werden;
  • Die Technologie kann auch verwendet werden, um die Stimmen historischer Figuren in fiktiven Szenarien originalgetreu wiederzugeben oder verstorbene Schauspieler wieder zum Leben zu erwecken.
  • Bei der Entwicklung von Videospielen wird die Technologie in ähnlichem Maße von Nutzen sein: Das Korrigieren von Äußerungen oder einfache Experimente könnten sofort und ohne physische Anwesenheit des Schauspielers bei der Aufzeichnung erfolgen;
  • In der Medizin kann Patienten, die beispielsweise infolge einer Kehlkopfkrebsbehandlung ihre Sprachfähigkeit verloren haben, die Möglichkeit gegeben werden, wieder mit ihrer eigenen Stimme zu kommunizieren.
  • Virtuelle Assistenten könnten personalisiert werden, da Heimanwender die Interaktion mit der Stimme eines geliebten Menschen möglicherweise natürlicher finden als mit der eines virtuellen Fremden.
  • Umgekehrt könnte die Werbebranche von der Einführung synthetischer Voiceovers profitieren, die so echt klingen wie ein menschliches Vorbild, bei denen jedoch die Probleme im Zusammenhang mit Rechtebesitz und Lizenzgebühren umgangen werden. Wenn andererseits gerade eine erkennbare Stimme benötigt wird, könnten Werbeproduzenten auch hier die Technologie nutzen, um die Stimme eines bestimmten Schauspielers einvernehmlich zu klonen, ohne dass dieser bei langwierigen Aufnahmesitzungen physisch anwesend sein müsste.
  • Die Hörbuch- und Podcast-Branche ist nur ein weiteres wachsendes Geschäftsfeld, in dem die Anwendung von Technologien zum Stimmenklonen und zur Stimmenkonvertierung die Möglichkeit bietet, die Produktion und Bearbeitung immersiver Inhalte zu optimieren.

Eleven Labs Sprachkonvertierung

Obwohl wir bei Eleven als Teil unseres Toolpakets Software zur Stimmkonvertierung entwickeln, treibt unsere Forschung im Bereich Stimmklonen und Stimmsynthese in erster Linie die Entwicklung unseres Hauptprodukts voran, das wir Anfang nächsten Jahres auf den Markt bringen möchten: das identitätserhaltende Tool zur automatischen Synchronisation.

Unser Ziel besteht darin, alle gesprochenen Inhalte auf Knopfdruck in der Stimme des Originalsprechers in allen Sprachen zugänglich zu machen. Stellen Sie sich ein lehrreiches YouTube-Video auf Englisch vor. Wenn jemand nur Spanisch spricht (aber das Thema ansonsten interessant fände, wenn er nur die Sprache beherrschen würde), ist das ein Problem. Natürlich können Untertitel eine Lösung sein, aber unser Ziel besteht darin, eine viel umfassendere und unterhaltsamere Möglichkeit zur Auseinandersetzung mit Inhalten zu bieten. Wir möchten in der Lage sein, dieselbe Person so zu gestalten, dass sie dieselbe Nachricht in muttersprachlichem Spanisch auf natürliche Weise ausspricht, auch wenn dies nicht der Fall ist.

Zu diesem Zweck ermöglicht uns das Klonen von Stimmen, ihre Identität zu bewahren – den Klang ihrer Stimme. Wir nutzen es, um neue Äußerungen in einer anderen Sprache zu generieren, sodass sie sich anhören, als würde dieselbe Person sprechen.

Die Stimmkonvertierung kommt ins Spiel, weil wir ihre Emotionen, Absichten und ihren Vortragsstil für ein maximales Eintauchen bewahren möchten. Wir trainieren robuste mehrsprachige Modelle, die es uns ermöglichen, Äußerungen in der Ausgangssprache zu analysieren und sie mit der richtigen Intonation in die Zielsprache zu übertragen.

Verfahren

Um die Stimme einer Person in die einer anderen Person umzuwandeln, also Ausgangssprache in Zielsprache, benötigen wir einen Algorithmus, der den Inhalt der Ausgangssprache mit den Merkmalen der Zielsprache ausdrückt. Eine gute Analogie hierzu sind Apps zum Gesichtstauschen, mit denen Sie Ihr Gesicht mit dem einer anderen Person mischen können, um ein Bild zu erstellen, auf dem beide Gesichter als Einheit zu sehen sind.

Gehen Sie hierzu so vor, dass Sie ein Bild von einem Gesicht machen und dessen Attribute zuordnen. Die Punkte im folgenden Beispiel tun genau das: Sie stellen die Grenzen dar, innerhalb derer die Merkmale des anderen Gesichts gerendert würden.

Bei der Sprachkonvertierung benötigen wir eine Möglichkeit, mit der der Algorithmus die Zielspracheigenschaften kodieren kann. Der Algorithmus wird anhand eines Datensatzes trainiert, der viele Beispiele dieser Rede enthält. Es zerlegt diese Samples auf eine grundlegende Ebene – sozusagen in die „Atome“ der Sprache. Sprache besteht aus Sätzen. Sätze bestehen aus Wörtern. Wörter bestehen aus Phonemen und kennzeichnen die Merkmale der Zielsprache. Sie stellen die grundlegende Ebene dar, auf der der Algorithmus arbeitet.

Der Trick bei der Sprachkonvertierung besteht darin, den Inhalt der Quellsprache mithilfe von Zielsprachphonemen wiederzugeben. Allerdings gibt es hier einen Kompromiss, ähnlich wie im Beispiel mit dem Gesichtsaustausch: Je mehr Markierungen Sie zum Zuordnen der Attribute eines Gesichts verwenden, desto mehr Beschränkungen legen Sie für das Gesicht fest, das Sie innerhalb dieser Markierungen zuordnen. Weniger Markierungen bedeuten weniger Einschränkungen. Dasselbe gilt für die Sprachkonvertierung. Je mehr Vorrang wir der Zielsprache einräumen, desto größer ist das Risiko, dass wir nicht mehr mit der Ausgangssprache synchron sind. Wenn wir ihm jedoch nicht genügend Priorität einräumen, besteht die Gefahr, dass viel von dem verloren geht, was diese Sprache charakteristisch macht. Wenn wir beispielsweise die Aufnahme einer wütend schreienden Person mit der Stimme von Morgan Freeman wiedergeben würden, hätten wir ein Problem. Wenn wir den Emotionen aus der Originalsprache zu viel Vorrang geben, verlieren wir den Eindruck, dass tatsächlich Morgan Freeman spricht. Wenn wir zu viel Wert auf sein Sprechmuster legen, geht die emotionale Ladung der Originalrede verloren.

Ethik

Ethische Bedenken im Zusammenhang mit dem Stimmenklonen müssen angesprochen werden, da der potenzielle Missbrauch dieser Technologie immer mehr Menschen beunruhigt. Im Jahr 2020 nutzten Betrüger Audio-Deepfakes, um in einem Telefongespräch die Rolle eines CEOs zu übernehmen und so eine Banküberweisung in Höhe von 35 Millionen US-Dollar zu autorisieren. Eine Technologie, die den Eindruck erwecken kann, jemand habe etwas Falsches gesagt, weckt natürlich die Befürchtung, sie könne zu Desinformations-, Verleumdungs- oder Betrugszwecken missbraucht werden. Ebenso wirft die Sprachkonvertierung wichtige Fragen hinsichtlich Urheberrechtsverletzungen auf, wenn sie es Benutzern ermöglicht, aus Inhalten, die ohne die Zustimmung der Spracheigentümer erstellt wurden, Kapital zu schlagen.

Bei Eleven sind wir der Ansicht, dass wir alles in unserer Macht Stehende tun müssen, um sicherzustellen, dass unsere Technologie nicht für schändliche Zwecke eingesetzt wird. Daher müssen wir Sicherheitsvorkehrungen treffen, um vor den damit verbundenen Gefahren zu schützen:

  • Wir arbeiten nur mit Kunden zusammen, die sich an unsere Bedingungen halten, die den böswilligen Einsatz unserer Technologie mit der Absicht der Desinformation, Diffamierung, des Betrugs oder zu jedem anderen Zweck, der als illegal oder schädlich erachtet werden kann, verbieten.
  • Die von Eleven produzierten synthetischen Videoinhalte enthalten ein deutlich erkennbares Wasserzeichen, das darauf hinweist, dass sie KI-generiert sind. Audioinhalte enthalten eine klare Dateibeschreibung. Wenn wir erkennbare Stimmen verwenden, tun wir dies zu Demonstrationszwecken und in Kontexten, die keine Interessenkonflikte hervorrufen;
  • Gleichzeitig möchten wir die Stimminhaber und ihre Lizenzgeber bei der Durchsetzung ihrer Rechte unterstützen.
  • Wenn Sie Ideen haben, wie wir unsere Haltung verbessern können, lassen Sie es uns bitte wissen unter ethics@elevenlabs.io

Wir sind davon überzeugt, dass die Angst vor Missbrauch nicht der dominierende Faktor sein sollte, der unsere Haltung gegenüber leistungsstarken neuen Technologien bestimmt. Vielmehr sollten wir uns darum bemühen, bereits während der Entwicklung geeignete Sicherheitsvorkehrungen zu treffen, um das Schadensrisiko zu minimieren und gleichzeitig das Potenzial, das die Technologie der breiten Öffentlichkeit bietet, optimal zu nutzen.

Zukunft

Die Technologie zur Stimmkonvertierung und Stimmklonierung dürfte die Film- und Fernsehbranche, die Inhaltserstellung, die Spieleentwicklung, die Podcast- und Hörbuchbranche sowie die Werbebranche revolutionieren. Doch ihre Einsatzmöglichkeiten gehen über den kommerziellen Bereich hinaus und umfassen potenzielle Anwendungen in der Medizin, Bildung und Kommunikation.

Das Klonen von Stimmen ebnet den Weg für eine Zukunft, in der beliebige Inhalte in jeder Sprache und mit jeder Stimme generiert werden können, um Millionen von Menschen weltweit zu erreichen und eine völlig neue Wirtschaft zu schaffen. Unser Ziel bei Eleven ist es, dazu beizutragen, diese Zukunft zu verwirklichen.

Mehr entdecken

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden