
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Erstellen Sie dynamische Mehrcharakter-Dialoge mit Eleven v3 Audio Tags. Skripten Sie überlappende Stimmen, Unterbrechungen und emotionale Wechsel für natürliche, menschenähnliche KI-Gespräche.
Konversationen treiben die Geschichte voran. Mit Eleven v3 Audio Tags können Sie jetzt Szenen mit sich überschneidenden Stimmen, schnellen Dialogen und emotionalem Zusammenspiel schreiben – alles von einem einzigen Modell ausgeführt.
Durch die Kombination von Tags wie [interrupting], [overlapping] oder [laughs] können Sie naturalistische Dialoge erstellen, die wie menschliche Gespräche fließen — komplett mit Unterbrechungen, Tonwechseln und spontanen Reaktionen.
Das ist nicht nur zeilenweise Sprache. Es ist eine Mehrcharakter-Performance.
Mehrpersonen-Dialoge entstehen, wenn ein Sprachmodell mehrere unterschiedliche Rollen in derselben Szene spielt. Jede Figur spricht in einem anderen Stil, Ton oder Rhythmus – manchmal unterbrechen sie sich sogar oder sprechen gleichzeitig.
Mit Eleven v3 können Sie dies direkt skripten: Marissa: [beginnt zu sprechen] Also, ich dachte, wir könnten— Chris: [unterbricht] —unsere neuen Timing-Funktionen testen? Marissa: [überrascht] Genau! Wie hast du— Chris: [überlappt] —gewusst, was du dachtest? Glücklicher Zufall! Marissa: [lacht] Ehrlich? Das macht irgendwie Spaß.
Das Ergebnis fühlt sich wie echter Dialog an — nicht wie zusammengesetzte Erzählung.
Was früher mehrere Sprecher, Aufnahmen und Zeitabstimmungen erforderte, kann jetzt mit einem Skript gehandhabt werden. Tags ermöglichen es, jede Stimme unabhängig innerhalb einer Szene zu dirigieren.
Beispiel: Jessica: [flüstert] So. Von Fusion: [sarkastisch] Oh, na schau mal an, Miss Fancy Pants. Jessica: [französischer Akzent] Das ist spektakulär, nicht wahr?
Die Stimmen wechseln nicht nur ab — sie interagieren, reagieren und überlappen sich.
Hier sind einige wesentliche Tags für das Schreiben natürlicher, reaktiver Dialoge:
Diese können für ausdrucksstarkes Zusammenspiel geschichtet werden: [frustrated] Du hörst mir nie zu — [interjecting] Weil du nie sagst, was du meinst!
Eleven v3 unterstützt eine timing-bewusste Wiedergabe, die es Stimmen ermöglicht, sich natürlich zu unterbrechen oder zu überlappen. Das ist entscheidend für Humor, Spannung oder Realismus.
In diesem Auszug: Marissa: [panisch] Warten Sie, stürzen wir ab? Ich kann nicht sagen, ob das ein Feature oder ein— Chris: [unterbrechend] Bug! Marissa: [seufzend] Ja, aber ehrlich? Das macht irgendwie Spaß.
Die Szene wirkt lebendig, weil die Interaktion fließend ist, nicht skriptgesteuert.
Mit Eleven v3 werden Dialogszenen zu orchestrierten Aufführungen. Sie können ganze Gespräche aufbauen — komplett mit Charakteren, Timing, Emotion und Wiedergabe — mit einem Skript und einem Modell.
Für Geschichtenerzähler, Spieleautoren und interaktive Designer eröffnet dies komplexes Szenenschreiben ohne zusätzlichen Produktionsaufwand. Sie skripten nicht nur Zeilen. Sie dirigieren die Dynamik der Besetzung.
Professionelle Voice Clones (PVCs) sind derzeit nicht vollständig für Eleven v3 optimiert, was zu möglicherweise geringerer Klonqualität im Vergleich zu früheren Modellen führt. In dieser Forschungs-Vorschauphase wäre es am besten, einen Instant Voice Clone (IVC) oder eine gestaltete Stimme für Ihr Projekt zu finden, wenn Sie v3-Funktionen nutzen müssen. Die PVC-Optimierung für v3 kommt in naher Zukunft.
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Supporting 10,000+ research conversations with natural, trustworthy voices
Bereitgestellt von ElevenLabs Agenten