
StudyLabAI brings one-on-one tutoring to students globally with ElevenLabs Grant
Powering interactive, personalized learning experiences with voice AI
Einführung von Eleven v3 Alpha
v3 ausprobierenSteuern Sie Ton, Emotion und Tempo für natürliche Gespräche. Fügen Sie Ihrer Text-to-Speech-Ausgabe Charakterdarstellung hinzu.
Audio-Tags sind ein leistungsstarkes Werkzeug in Eleven v3 (Alpha), dem neuen Forschungs-Vorschau-Modell für Text to Speech von ElevenLabs. Diese Elemente ermöglichen präzise Steuerung nicht nur über Ton und Tempo, sondern auch über Charakter und stimmliche Leistung.
Mit Tags wie [Piratenstimme], [französischer Akzent] oder [sarkastisch] wird die Stimme zu einem Werkzeug für Geschichtenerzählen, nicht nur für Erzählungen. In Kombination mit einem starken Charakterstimmen-Klon können Sie nicht nur einen Klang, sondern eine vollständige Darbietung einfangen.
Diese Tags ermöglichen es, die stimmliche Identität mitten im Satz zu wechseln, Akzente zu imitieren oder sich in Archetypen wie Bösewichte, Erzähler oder Sidekicks hineinzuversetzen – ohne das zugrunde liegende Skript zu ändern oder die Stimme zu wechseln.
Charakterdarstellung ist die Fähigkeit, in eine Rolle zu schlüpfen. Ob Sie einen extravaganten Bösewicht, einen rauen Seemann oder einen lokalen Ladenbesitzer aus Melbourne sprechen, die neuen Audio-Tags lassen Sie die Darbietung so lenken, dass sie zur gewünschten Persona passt.
Mit einem einfachen, in Klammern gesetzten Satz können Sie die Szene setzen: „[Piratenstimme] Arr, der offene Ozean. Riecht ihr das, Jungs? Das ist der Duft der Freiheit… und ein Hauch von Meuterei.“
Das Modell spricht nicht nur Wörter aus – es führt sie im Charakter aus.
Stimmliche Darbietung geht nicht nur um Lautstärke oder Emotion. Es geht auch darum, wer spricht. Mit Eleven v3 können Sie spezifische Akzente, Dialekte und Sprechstile spontan abrufen. Zum Beispiel:
[Amerikanischer Akzent] Könnten Sie meinen Akzent im alten Modell wechseln? [abweisend] Dachte ich mir. [Australischer Akzent] Aber jetzt können Sie – schauen Sie sich das an, Kumpel! [Französischer Akzent] Meine Liebe… ist wie eine rote, rote Rose.
Diese Art des fließenden Identitätswechsels ist ideal für Animationen, Spiele, interaktive Fiktion oder jeden Moment, in dem die Persönlichkeit des Sprechers wichtig ist.
Charakterfokussierte Tags ermöglichen es Ihnen, stimmliche Identität und Präsenz zu gestalten:
Das Schichten von Tags hilft, Charaktere zum Leben zu erwecken: „[dramatisch][französischer Akzent] Sie verstehen nicht... es ging nie um Rache. Es ging um Schicksal.“
In Skripten mit mehreren Charakteren machen Audio-Tags den Wechsel zwischen Stimmen einfach. Fügen Sie Spannung, Humor oder Überraschung hinzu, indem Sie die Charakterdarstellung mitten im Dialog wechseln – ohne zusätzliche Bearbeitung.
Nehmen Sie diesen Auszug aus einer Demo: „Jessica: [lacht] Das war... wunderschön. Dr. Von Fusion: [dramatisch] Sein oder nicht sein – das ist hier die Frage! Jessica: [französischer Akzent] Das ist spektakulär, nicht wahr?“
Was früher eine vollständige Besetzung erforderte, kann jetzt in einem einzigen Sprachtrack geskriptet werden – ohne Reichweite oder Tiefe zu opfern.
Eleven v3 unterstützt dynamische stimmliche Änderungen, kontextuelle Verschiebungen und konsistente Darbietung über Charaktere hinweg. Das bedeutet, dass das Modell nicht nur versteht, was gesagt werden soll – sondern wie jeder Charakter es sagen sollte.
Für Kreative eröffnet dies eine neue Dimension der Kontrolle. Sie schreiben nicht nur Dialoge. Sie dirigieren Darbietungen.
Professionelle Voice Clones (PVCs) sind derzeit nicht vollständig für Eleven v3 optimiert, was zu potenziell geringerer Klonqualität im Vergleich zu früheren Modellen führen kann. Während dieser Forschungs-Vorschauphase wäre es am besten, einen Instant Voice Clone (IVC) oder eine gestaltete Stimme für Ihr Projekt zu finden, wenn Sie v3-Funktionen nutzen müssen. Die PVC-Optimierung für v3 kommt in naher Zukunft.
Powering interactive, personalized learning experiences with voice AI
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Bereitgestellt von ElevenLabs Konversationelle KI