Entdecken Sie Eleven Music. Erstellen Sie den perfekten Song für jeden Moment.

Die erste KI, die lachen kann

24. Nov. 2022 • 5 Minuten Lesezeit

Unser Modell erzeugt Emotionen wie kein anderes

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

In unserem letzten Beitrag haben wir einige lange Beispiele vorgestellt, die von unserem Sprachsynthese-Tool generiert wurden, und wir haben einen kurzen Überblick darüber gegeben, wie das einzigartige Design unseres Modells es ermöglicht, gut getaktete und nicht-robotische Sprache zu erzeugen. Heute zeigen wir Ihnen, dass es auch emotional reicher und kontextbewusster ist als jedes andere. Dies macht es nicht nur äußerst ansprechend, sondern auch ideal für Anwendungen von der Vertonung von Büchern und Videospielen bis hin zur Werbung.

Emotionen

Die Stärken unseres Modells – Flüssigkeit und richtige Intonation – stammen aus einer Fülle von Trainingsdaten (über 500.000 Stunden!), aber der zentrale Faktor ist, wie es aus diesen Daten lernt, was auf seine Bauweise zurückzuführen ist. Auf der grundlegendsten Ebene ist es darauf ausgelegt, die in Texten enthaltenen Emotionen zu verstehen und zu entscheiden, ob der Sprecher glücklich, wütend, traurig oder neutral klingen sollte. Betrachten Sie einige Beispiele:

Alle Unterschiede in Intonation und Stimmung kommen rein aus dem Text – nichts anderes beeinflusste das Ergebnis. Zeichensetzung und die Bedeutung der Wörter spielen eine führende Rolle bei der Entscheidung, wie ein bestimmter Satz geliefert werden soll, aber beachten Sie auch, wie das Modell überzeugend Geräusche erzeugt, die nicht Teil der regulären Sprache sind, wie Lachen, wenn der Sprecher siegreich ist (wir werden bald eine Zusammenstellung der verschiedenen Lacher veröffentlichen, die unsere KI beherrscht!). Ebenso übertreibt es angemessen die Reaktion, wenn der Sprecher von etwas Lustigem amüsiert ist – es ist 'sooooo lustig'.

Kontext

Aber die Bedeutung einzelner Wörter zu kennen, reicht nicht aus. Unser Modell ist ebenso sensibel für die breitere Situation, die jede Äußerung umgibt – es bewertet, ob etwas Sinn ergibt, indem es die Verbindung zu vorhergehendem und nachfolgendem Text betrachtet. Diese umfassende Perspektive ermöglicht es, längere Fragmente richtig zu intonieren, indem ein bestimmter Gedankengang über mehrere Sätze hinweg mit einem einheitlichen emotionalen Muster überlagert wird, wie in unserem vorherigen Beitrag mit längeren Inhalten gezeigt. Aber es hilft auch, logische Fehler zu vermeiden. Zum Beispiel werden einige Wörter gleich geschrieben, haben aber unterschiedliche Bedeutungen, z.B. 'read' in der Gegenwarts- und Vergangenheitsform oder 'minute' als Zeiteinheit oder etwas Kleines. Welche Bedeutung angemessen ist, hängt vom Kontext ab:

Geschriebenes vs. gesprochenes Wort

Da wir unsere Plattform so gestalten, dass sie den Anforderungen an lange Inhalte gerecht wird, muss unser Modell auch verstehen, dass Symbole, Abkürzungen und bestimmte Konventionen, die im Schreiben üblich sind, auf eine bestimmte Weise ausgesprochen oder nicht wörtlich ausgesprochen werden sollten. Zum Beispiel muss das Modell wissen, dass FBI, TNT und ATM anders ausgesprochen werden als UNESCO oder NASA. Ebenso ist $3tr im Schreiben völlig in Ordnung, aber wenn es laut vorgelesen wird, muss es zu ‘drei Billionen Dollar’ werden.

Menschliches Eingreifen

Diese feinen Unterschiede zu erkennen, ist entscheidend, da unser Ziel darin besteht, den Bedarf an menschlichem Eingreifen im Generierungsprozess zu minimieren. Schließlich bewerben wir nicht die Fähigkeit unseres Tools, ein Hörbuch in Minuten zu erstellen, damit jemand das gesamte Audio anhören muss, um dann den gesamten Text neu zu schreiben. Dennoch, auch wenn wir die Ausspracheregeln unseres Modells kontinuierlich aktualisieren, ist es immer möglich, dass es verwirrt wird. Zu diesem Zweck entwickeln wir jetzt ein System zur Kennzeichnung von Unsicherheiten, das es Nutzern ermöglicht, sofort zu sehen, welche Textstellen das Modell problematisch fand, und ihnen beizubringen, wie sie ausgesprochen werden sollten.

Unzählige Anwendungen

Alle gezeigten Fähigkeiten sind Schritte auf dem Weg, unsere Software zum vielseitigsten KI-Vertonungstool zu machen.

Nachrichtenverlage haben bereits festgestellt, dass die Erhöhung ihrer Audio-Präsenz eine großartige Möglichkeit ist, Abonnenten zu halten. Der große Vorteil, jeden Artikel mit seiner Audio-Lesung einzubetten, besteht darin, dass Menschen zuhören können, während sie etwas anderes tun. Die Verlage, die dies tun, verwenden oft Synchronsprecher, was teuer ist, und nicht alle Artikel werden abgedeckt. Oder sie lassen ihre eigenen Reporter Geschichten vorlesen, was zeitaufwendig und damit auch teuer ist. Diejenigen, die synthetische Sprache verwenden, um ihre Inhalte zu vertonen, sparen Geld, zahlen aber einen anderen Preis, indem sie bei der Qualität Kompromisse eingehen. Jetzt, mit ElevenLabs, gibt es keinen Grund für Kompromisse und Sie können das Beste aus beiden Welten haben.

Oder stellen Sie sich vor, Hörbücher mit unterschiedlichen, emotional ansprechenden Voiceovers für alle Charaktere in wenigen Minuten zu erzeugen. Dies eröffnet nicht nur neue Möglichkeiten, mit Büchern zu interagieren, sondern erleichtert auch den Zugang für Menschen mit Lernschwierigkeiten erheblich.

Denken Sie nur an die Möglichkeiten, die sich jetzt für Videospiel Entwickler eröffnen, die nicht mehr überlegen müssen, ob ein bestimmter Charakter wichtig genug ist, um die ansonsten erheblichen Kosten für die Vertonung mit echten Schauspielern zu rechtfertigen. Alle NPCs können jetzt ihre eigenen Stimmen und Persönlichkeiten haben.

Werbung Agenturen und Produzenten können jetzt frei experimentieren und Voiceovers anpassen, um den Ton jeder Kampagne zu treffen – sei es für einen Sport-TV-Kanal oder eine Luxusuhrenmarke. Die Stimme eines Schauspielers kann zur Klonung lizenziert werden, sodass Änderungen sofort und ohne physische Anwesenheit des Schauspielers vorgenommen werden können. Oder wenn sie sich für eine vollständig synthetische Stimme entscheiden, müssen sich Werbetreibende auch keine Sorgen über Buyouts für Stimmrechte machen.

Virtuelle Assistenten können lebensechter werden, sowohl weil Voice Cloning es ihnen ermöglicht, mit einer Stimme zu sprechen, die einem bestimmten Nutzer vertraut ist, als auch weil diese neu gewonnene Tiefe der Darbietung sie natürlicher im Umgang macht.

ElevenLabs Beta

Gehen Sie hier, um sich für unsere Beta-Plattform anzumelden und sie selbst auszuprobieren. Wir verbessern ständig und jedes Nutzerfeedback ist für uns in dieser frühen Phase sehr wertvoll. Viel Spaß!

Entdecken Sie Artikel des ElevenLabs-Teams

Developer

Developer

Eleven v3 (alpha), now available in the API

Eleven v3 (alpha), the most expressive text to speech model, is now available in the API for every developer.

Impact

Sarah Ezekiel, a woman using eye gaze technology to operate a tablet displaying Smartbox Grid communication software

Impact

ElevenLabs Impact Program Innovates in Assistive Technology

Eight seconds of audio from an old VHS tape was all Sarah needed to reclaim her voice with ElevenLabs — and through her Smartbox assistive technology device, finally let her children hear her authentic voice.

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden