Direkt zum Inhalt

Eleven v3 ist jetzt allgemein verfügbar

Eleven v3, unser fortschrittlichstes Text to Speech-Modell, ist jetzt aus der Alpha-Phase und allgemein verfügbar.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, unser fortschrittlichstes Text to Speech-Modell, ist jetzt aus der Alpha-Phase und allgemein verfügbar.

Seit dem Alpha-Release haben wir das Modell weiter verbessert. Zwei zentrale Verbesserungen:

Stabiler.In Tests bevorzugten Nutzer die neue Version in 72 % der Fälle gegenüber der vorherigen Alpha-Version.

Präziser.Wir haben die Verarbeitung von Zahlen, Symbolen und spezieller Notation in verschiedenen Sprachen deutlich verbessert.

Verbesserte Genauigkeit

Text to Speech-Modelle müssen interpretieren, was Sie schreiben, und entscheiden, wie es ausgesprochen wird. Die gleichen Symbole können je nach Kontext unterschiedliche Bedeutungen haben.

Beispiel: eine Telefonnummer: "+49 170 9876543"

In manchen Fällen lasen unsere Modelle dies als „plus neunundvierzig, einhundertsiebzig, neun Millionen achthundertsechsundsiebzigtausend fünfhundertdreiundvierzig“ – also als große Zahlen statt als Ziffernfolge. Die korrekte Aussprache ist „plus vier neun, eins sieben null, neun acht sieben sechs fünf vier drei.“

Solche Fehler traten in verschiedenen Bereichen auf – Sportergebnisse, chemische Formeln, Währungen, Koordinaten – überall dort, wo das Modell Symbole interpretieren und entscheiden muss, wie sie ausgesprochen werden.

Wir haben mit einem internen Benchmark getestet, der 27 Kategorien in 8 Sprachen abdeckt.

Insgesamt:68 % weniger Fehler. Die Fehlerquote sank von 15,3 % auf 4,9 %.

Fehlerquote nach Kategorie:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

Die Verbesserungen sind besonders deutlich in Bereichen, in denen der Kontext die Interpretation bestimmt – etwa wenn ein Doppelpunkt je nach Textumfeld ein Sportergebnis, eine Uhrzeit oder ein Seitenverhältnis anzeigt.

Beispiele

Währungen — korrekter Zahlenwert:

Eingabe: ¥250.000

Vorher: 25.000 Yen

Nachher: 250.000 Yen

Chemische Formeln — Symbole korrekt übernommen:

Eingabe: SO₂

Vorher: „Schwefel doppelt“ (verfälscht)

Nachher: „S O zwei“

Sportergebnisse — kontextabhängige Interpretation:

Eingabe: Endstand: 102-98

Vorher: „einhundertzwei minus achtundneunzig“

Nachher: „einhundertzwei zu achtundneunzig“

Verfügbarkeit

Eleven v3 ist jetzt auf allen Plattformen allgemein verfügbar.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden