
Eleven v3 Audio Tags: Emulating accents with precision
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Einführung von Eleven v3 Alpha
v3 ausprobierenDie erste Plattform zur Erzeugung hochwertiger langformatiger Sprache
Diesen November starten wir die erste Sprachsynthese-Plattform, die es Verlegern und Kreativen ermöglicht, hochwertige, emotional ansprechende Langform-Inhalte zu erzeugen.
Wir haben uns aus mehreren Gründen für diese Richtung entschieden. Derzeit gibt es kein Tool, das die Erzeugung von Langform-Sprache in ausreichender Qualität unterstützt, um sie für Nachrichten oder Hörbücher geeignet zu machen. Unser Team hört leidenschaftlich gerne alles rund um Audio und wir empfanden es als natürlichen Schritt, uns den Herausforderungen längerer Inhalte zu stellen, um unsere Ambitionen zu verwirklichen. Aber wir sind auch besonders begeistert, es als unser herausragendes Merkmal zu betrachten - wir sind die erste KI-Sprachtechnologie-Plattform, die den kreativ Schaffenden und Verlegern die emotionalsten, reichhaltigsten und lebensechtesten Stimmen bietet, die die ultimative Erzählqualität suchen.
In diesem Sinne ermöglicht unsere Plattform Ihnen, hochwertige, sprecherreife Sprache aus jedem Text zu erzeugen und herunterzuladen - sei es aus Nachrichtenartikeln, Büchern, Newslettern, Blogs oder wissenschaftlichen Arbeiten. Sie können jede Stimme auswählen, um Inhalte zu lesen - entweder aus einer Reihe vordefinierter synthetischer Stimmen oder durch Klonen einer Stimme aus einem von Ihnen bereitgestellten Muster. Die Einsatzmöglichkeiten unserer Technologie sind endlos. Von der Bereitstellung bestehender Inhalte mit medienübergreifender Zugänglichkeit über die Steigerung der Produktivität bis hin zur Wiederbelebung vergangener Texte durch Umwandlung in Audio oder der Schaffung neuer Inhalte. Unser nächstes Ziel ist die Unterstützung weiterer Sprachen.
Wie wir dies erreichen, liegt an der Art und Weise, wie wir unser Modell aufgebaut haben. Es ist darauf trainiert, zu verstehen, was gesagt wird und die Wiedergabe entsprechend anzupassen. Es berücksichtigt dabei nicht nur die Bedeutung der Worte, sondern auch den Kontext jeder Äußerung.
Traditionelle Sprachgenerierungsalgorithmen erzeugen Äußerungen satzweise. Dies ist rechnerisch weniger anspruchsvoll, wirkt aber sofort mechanisch. Emotionen und Intonation müssen oft über mehrere Sätze hinweg reichen und mitschwingen, um einen bestimmten Gedankengang zu verbinden. Ton und Tempo vermitteln Absicht, was Sprache überhaupt erst menschlich klingen lässt. Anstatt jede Äußerung separat zu erzeugen, berücksichtigt unser Modell den umgebenden Kontext und erhält den angemessenen Fluss und die Prosodie über das gesamte erzeugte Material. Diese emotionale Tiefe, gepaart mit erstklassiger Audioqualität, bietet Nutzern das authentischste und überzeugendste Erzählwerkzeug.
Unsere Plattform wird nächsten Monat live gehen und Sie können sich heute als Beta-Tester registrieren unter elevenlabs.io
Wenn Sie neugierig sind, unsere Software in Aktion zu hören, gehen Sie zu audiostory.ai - ein Nebenprojekt von Eleven Labs, das darauf abzielt, unsere Fähigkeiten zur Langform-Sprachgenerierung zu demonstrieren, indem wir unsere synthetischen Stimmen verwenden, um Nachrichtenartikel und Bücher aus der Vergangenheit zu lesen. Die erste Episode ist ein Artikel aus dem Jahr 1899 von der New York Times über die Erfindung des Radios - hören Sie ihn hier. Oder, wenn Sie es noch nicht getan haben, können Sie zum Anfang dieser Seite gehen und diesen Eintrag vorgelesen hören.
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Fine-grained control over timing, rhythm, and emphasis with Eleven v3 Audio Tags. Transform flat delivery into dynamic, performative content.