
Diese Stimme existiert nicht - Generative Voice KI
Wir setzen unser eigenes generatives Modell ein, das es Nutzern ermöglicht, völlig neue synthetische Stimmen zu entwerfen
In letzter Zeit scheint jeder über generative KI zu sprechen. Deep-Learning-gestützte Modelle wie ChatGPT, Stable Diffusion, DALL-E und Midjourney haben in der Tech-Welt und darüber hinaus viel Aufsehen erregt. Viele zählen sie zu den bedeutendsten Entwicklungen der KI. Ob Sie zustimmen oder nicht, der allgemeine Tenor scheint zu sein, dass etwas sehr Mächtiges aufgetaucht ist. Im Jahr 2023 werden wir von Modellen hören, die Ihnen beim Zeichnen oder Erstellen von Videos helfen können. Ähnlich wie bei Fragen nach dem neuesten Smartphone werden wir bald nach dem neuesten Foundation-Modell fragen. Doch bei all dieser Aufregung gibt es einen Bereich innerhalb der generativen Medien, der noch stark unterschätzt wird: Voice KI. Es ist auch der Bereich, in dem wir führend werden wollen. Bei Eleven nutzen wir täglich das Potenzial, das durch Deep-Learning-Techniken freigesetzt wird, um unsere lebensechten Text-to-Speech und Voice Cloning Tools zu betreiben. Und jetzt setzen wir auch unser eigenes generatives Modell ein, das es Ihnen ermöglicht, völlig neue synthetische Stimmen von Grund auf zu entwerfen.
Voice Generator - eine Stimme entwerfen
Unsere Nutzer nutzen die Plattform täglich, um ihre Charaktere zum Leben zu erwecken - sei es für Hörbücher, Spiele oder Fan-Fiction. Wir erkannten, dass unser aktuelles Sprecherangebot zu klein ist, damit jeder die Stimmen findet, die seinen Inhaltsanforderungen entsprechen und dennoch exklusiv für jeden Nutzer bleiben. Unsere Lösung war es, Ihnen zu ermöglichen, völlig neue synthetische Stimmen zu entwerfen.
Wir hatten eine Idee, wie wir dies angehen könnten, als wir die Methoden entpackten, die wir derzeit für Sprachsynthese und Voice Cloning verwenden. Beide Prozesse erfordern eine Möglichkeit, die Merkmale einer bestimmten Stimme zu kodieren. Sprecher-Embeddings tragen diese Identität - sie sind eine Vektor-Darstellung der Stimme eines Sprechers. Wir erkannten, dass wir aus der Verteilung der Sprecher-Embeddings Proben entnehmen könnten, indem wir ein dediziertes Modell trainieren, das es uns ermöglicht, unendlich viele neue Stimmen zu erstellen.
Da unsere Nutzer hauptsächlich nach spezifischen Sprachmerkmalen suchen, mussten wir einen Grad an Kontrolle über den Prozess hinzufügen. Wir erweiterten unser Modell mit Konditionierung, um Stimmen basierend auf ihren Merkmalen zu generieren. Das Modell ermöglicht es Ihnen nun, bestimmte grundlegende Parameter festzulegen, die die Kernidentität der neuen Stimme bestimmen: Geschlecht, Alter, Akzent, Tonhöhe und Sprechstil. Mit anderen Worten, jedes Mal, wenn Sie 'generieren' drücken, selbst wenn Sie die gleichen Basisparameter wählen, erhalten Sie eine völlig neue Stimme, die zuvor nicht existierte.
Unten sind einige Beispiele für Stimmen, die auf diese Weise entworfen werden können:
'Design Voice' wird ab Februar auf unserer Plattform als Teil von Voice Lab verfügbar sein.
Wofür ist das nützlich?
Unsere Tools können bereits Sprache erzeugen, die so lebensecht ist wie jede menschliche, und wir erwarten, dass sich das Spektrum der potenziellen Anwendungen für künstliche Stimmen nur erweitern wird. Viele dieser neuen Anwendungen, einschließlich der Aufnahme von Audio für Nachrichtenveröffentlichungen oder Werbespots, erfordern, dass eine Stimme auf eine bestimmte Marke oder einen bestimmten Anwendungsfall beschränkt und damit identifiziert wird und nicht anderswo verwendet wird. Andere Anwendungsfälle, wie Geschichtenerzählen und Videospiele, priorisieren Flexibilität und die Freiheit, von Anfang an zu experimentieren. Anstatt also ein gigantisches Set virtueller Sprecher zu erstellen, haben wir uns darauf konzentriert, den Nutzern die endgültige Entscheidung darüber zu überlassen, welche Stimmen am besten zu ihren Zwecken passen.
Buch Autoren gewinnen nun nicht nur die Möglichkeit, ihre Werke einfach in Audio umzuwandeln, sondern behalten auch die künstlerische Kontrolle über die Gestaltung maßgeschneiderter Erzählungen. Dies bietet ihrem Publikum interessante neue Möglichkeiten, mit Veröffentlichungen zu interagieren, und erhöht die Anzahl der Bücher, die wir genießen können, erheblich.
Nachrichten Verlage haben zunehmend den Schritt in die Audio-Welt gewagt, und die Wahl markanter Stimmen zur Repräsentation ihrer Veröffentlichungen ist eine wichtige Aufgabe - viele Hörer schätzen Form ebenso wie Inhalt. Ebenso wichtig ist, dass Verlage nun sicher sein können, dass eine bestimmte Stimme sie und nur sie repräsentiert.
Videospiel Entwickler können nun eine Vielzahl ansonsten stummer NPCs mit allen notwendigen Tools vertonen. Sie können nicht nur kosteneffizienter arbeiten, ohne Kompromisse bei der Qualität einzugehen, sondern auch Stimmen entwerfen, die in den virtuellen Welten, die sie erschaffen, völlig einzigartig sind.
Werbung Kreative benötigen Voiceovers, die zu bestimmten Kampagnen passen, daher ist die Möglichkeit, resonante und zweckgerichtete Erzählungen bereits zu Beginn der Entwicklung zu entwerfen, ein erheblicher Vorteil. Sie können nun sofort mit mehreren Stimmen und Darstellungsstilen experimentieren, ohne zusätzliche Ressourcen zu beanspruchen.
Von Erstellern, die alle Arten von Audio- und Videoinhalten produzieren, bis hin zu Unternehmens leitern, die Unternehmenskommunikation vertonen möchten, sind die Möglichkeiten, überzeugendes Audio zu entwerfen, das sowohl einzigartig als auch auf einen bestimmten Anwendungsfall zugeschnitten ist, nun endlos.
Ethische KI
Ähnlich wie beim Voice Cloning, das Ängste über die Folgen seines potenziellen Missbrauchs weckt, sorgen sich zunehmend viele Menschen, dass die Verbreitung von KI-Technologie die Existenzgrundlage von Fachleuten gefährden wird. Bei Eleven sehen wir eine Zukunft, in der Synchronsprecher ihre Stimmen lizenzieren können, um Sprachmodelle für spezifische Anwendungen zu trainieren, im Austausch gegen Gebühren. Kunden und Studios werden weiterhin gerne professionelle Sprecher in ihren Projekten einsetzen, und der Einsatz von KI wird einfach zu schnelleren Durchlaufzeiten und größerer Freiheit beim Experimentieren und Festlegen der Richtung in der frühen Entwicklung beitragen. Die Technologie wird verändern, wie gesprochenes Audio entworfen und aufgenommen wird, aber die Tatsache, dass Synchronsprecher nicht mehr physisch bei jeder Sitzung anwesend sein müssen, gibt ihnen wirklich die Freiheit, gleichzeitig an mehr Projekten beteiligt zu sein und ihre Stimmen wirklich zu verewigen.
Darüber hinaus freuen wir uns, dass eine Vielzahl von Büchern, Nachrichten, unabhängigen Spielen und anderen Inhalten, deren Autoren und Entwickler sich die Aufnahmekosten sonst nicht leisten könnten, nun über ein anderes Medium zugänglich wird. Mit diesem erweiterten Zugang kommt die Möglichkeit, das Publikum in jedem Fall zu erweitern.
Bei Eleven sind wir voll und ganz verpflichtet, sowohl die Rechte an geistigem Eigentum zu respektieren als auch Schutzmaßnahmen gegen den potenziellen Missbrauch unserer Technologie zu implementieren:
- Wir arbeiten nur mit Kunden zusammen, die sich an unsere Bedingungen halten, die den böswilligen Einsatz unserer Technologie für Zwecke, die als illegal oder schädlich angesehen werden können, verbieten;
- Wir arbeiten auch daran, alle von unserem Modell generierten Audios zu kennzeichnen, damit sie sofort auf uns zurückgeführt werden können;
- Wenn wir erkennbare Stimmen verwenden, tun wir dies zu Demonstrationszwecken und in Kontexten, die keine Interessenkonflikte hervorrufen;
- Gleichzeitig bemühen wir uns, Stimmeninhaber und ihre Lizenzgeber bei der Geltendmachung ihrer Rechte zu unterstützen, und alle bekannten Verstöße werden überprüft und bearbeitet.
Blick nach vorn - Ihre eigene Stimme verbessern
In Zukunft planen wir, die Fähigkeiten unserer Modelle zur Stimmerzeugung und zum Voice Cloning zu kombinieren, um Nutzern zu ermöglichen, ihre eigenen Stimmen zu verbessern. Sie werden in der Lage sein, Ihre Stimme zu klonen und dann nach Belieben zu manipulieren. Wenn Sie befürchten, dass Ihr natürlicher Sprechstil etwas monoton ist, können Sie ihm Vielfalt hinzufügen. Wenn Sie es wirklich nicht mögen, aufgenommen zu werden, können Sie die Ausgabe so manipulieren, dass sie natürlicher klingt. Jede Person, die Audio mit ihrer eigenen Stimme für jeden Zweck produzieren muss, sei es eine vorab aufgezeichnete Präsentation oder eine Audiobotschaft, wird dies mit unserer Suite von Tools auf Knopfdruck tun können.
Frohes neues Jahr
Als sich das Jahr 2022 dem Ende zuneigte, möchten wir unseren Beta-Nutzern für Ihre kontinuierliche Teilnahme und Ihr Feedback danken. Viele der Funktionen, die wir entwickeln, verdanken wir Ihren Anregungen und Vorschlägen. Wir könnten nicht glücklicher sein, Sie an Bord zu haben, und wünschen Ihnen allen ein frohes neues Jahr.
Eleven Labs Beta
Gehen Sie hier, um sich für unsere Beta-Plattform anzumelden und sie selbst auszuprobieren. Wir verbessern ständig und alle Nutzererkenntnisse sind für uns in dieser frühen Phase sehr wertvoll.
Entdecken Sie Artikel des ElevenLabs-Teams


We’re partnering with Liberty Global to accelerate voice AI expansion across Europe
Their strategic investment supports the next stage of our growth in the region
