ElevenLabs verlässt die Beta-Phase und veröffentlicht Eleven Multilingual v2 - ein KI-Sprachmodell für 30 Sprachen

Veröffentlicht: 22. Aug. 2023

AnhörenArtikel anhören

0:00

0:000:00

Die Voice-AI-PlattformElevenLabsmacht einen bedeutenden Schritt nach vorn in ihren Bemühungen, Sprachbarrieren für Inhalte zu überwinden, mit der Einführung eines neuen, mehrsprachigen Deep-Learning-Modells, das 30 Sprachen unterstützt - Eleven Multilingual v2
Dieser Fortschritt ermöglicht es Medienunternehmen, Spieleentwicklern, Verlegern und unabhängigen Kreativen weltweit, die Zugänglichkeit ihrer Inhalte erheblich zu verbessern
Diese neuen Fähigkeiten, die einer Reihe von Feature-Releases und Verbesserungen seit dem Start der Plattform im Januar folgen, markieren das offizielle Ende der Beta-Phase des Unternehmens
Die Mission von ElevenLabs ist es, alle Inhalte weltweit in jeder Sprache und mit jeder Stimme zugänglich zu machen

London, Vereinigtes Königreich - ElevenLabsdas weltweit führende Unternehmen für Voice-AI-Software, hat heute ein neues mehrsprachiges Sprachgenerierungsmodell vorgestellt, das in der Lage ist, KI-Stimmen mit präziser "emotionaler Tiefe" in 30 Sprachen zu erzeugen.

Dieser vollständig auf interner Forschung basierende Fortschritt ermöglicht es Kreativen, lokalen Audioinhalt für internationale Märkte in Europa, Asien und dem Nahen Osten zu produzieren. ElevenLabs hat die letzten 18 Monate damit verbracht, menschliche Sprachmerkmale zu analysieren, neue Mechanismen zur Kontextverständnis und Emotionen im Sprachgenerierungsprozess zu entwickeln sowie neue und einzigartige Stimmen zu sammeln.

Das neue Modell Eleven Multilingual v2 ermöglicht es, bei der Eingabe von Text in die ElevenLabs Text-to-Speech-Plattform, fast 30 geschriebene Sprachen automatisch zu erkennen und in diesen Sprachen mit einem bisher unerreichten Maß an Authentizität zu generieren.

Gleichzeitig, unabhängig davon, ob die verwendete Stimme künstlich oder geklont ist, werden die einzigartigen Stimmmerkmale des Sprechers in allen Sprachen beibehalten, einschließlich seines ursprünglichen Akzents. Das bedeutet, dass dieselbe Stimme verwendet werden kann, um Inhalte in 30 verschiedenen Sprachen zum Leben zu erwecken.

Diese Veröffentlichung folgt aufdie allgemeine Verfügbarkeit des professionellen Voice-Clonings für alle Content-Ersteller auf der Plattform. Dieses Produkt-Update, das zusammen mit zusätzlichen Sicherheits- und Schutzfunktionen veröffentlicht wurde, ermöglicht es Nutzern, eine perfekte digitale Kopie ihrer Stimme zu erstellen; eine virtuelle Kopie

die nicht vom Original zu unterscheiden ist. Die heutige Veröffentlichung bedeutet, dass Ihre Stimme in der Lage ist, in fast 30 vom mehrsprachigen Modell unterstützten Sprachen zu sprechen.

Zu den unterstützten Sprachen gehören Koreanisch, Niederländisch, Türkisch, Schwedisch, Indonesisch, Vietnamesisch, Philippinisch, Ukrainisch, Griechisch, Tschechisch, Finnisch, Rumänisch, Dänisch, Bulgarisch, Malaiisch, Ungarisch, Norwegisch, Slowakisch, Kroatisch, Klassisches Arabisch und Tamil. Diese gesellen sich zu den zuvor verfügbaren Sprachen, darunter Englisch, Polnisch, Deutsch, Spanisch, Französisch, Italienisch, Hindi und Portugiesisch.

Nach der Einführung der neuesten Funktionen und kontinuierlichen Verbesserungen der Plattform hat ElevenLabs heute bestätigt, dass die Plattform offiziell die Beta-Phase verlässt. Dieser Übergang markiert einen entscheidenden Moment im Engagement des Unternehmens, zuverlässige und fortschrittliche Werkzeuge für seine über eine Million globalen Nutzer bereitzustellen.

Mit Blick auf die Zukunft plant ElevenLabs, einen Mechanismus einzuführen, der es Nutzern ermöglicht, Stimmen auf der Plattform zu teilen und von der Entwicklung neuer Stimmen zu profitieren, was die Zusammenarbeit zwischen Mensch und KI fördert.

Mati Staniszewski, CEO und Mitbegründer von ElevenLabs, kommentierte:

"ElevenLabs begann mit dem Traum, alle Inhalte weltweit in jeder Sprache und mit jeder Stimme zugänglich zu machen. Die Veröffentlichung von Eleven Multilingual v2 hat uns einen Schritt näher gebracht, diesen Traum zu verwirklichen und KI-Stimmen in menschlicher Qualität in jedem Dialekt verfügbar zu machen.

"Unsere Text-to-Speech-Tools helfen, Chancengleichheit zu schaffen und bieten hochwertige gesprochene Sprachfähigkeiten für alle Content-Ersteller. Diese Vorteile erstrecken sich nun auf mehrsprachige Anwendungen in fast 30 Sprachen. Wir hoffen, letztendlich mehr Sprachen und Stimmen mit Hilfe von KI abzudecken und Sprachbarrieren für Inhalte zu beseitigen. Bei ElevenLabs glauben wir, dass diese Fortschritte in der Zugänglichkeit letztendlich mehr Kreativität, Innovation und Vielfalt fördern werden."

Durch die Senkung der Kosten und Ressourcen, die für die Erstellung hochwertiger Audioinhalte in mehreren Sprachen erforderlich sind, bietet ElevenLabs Unternehmen und Kreativen die Möglichkeit, kreativere und zugänglichere Inhalte zu produzieren, die über Kulturen und Sprachen hinweg Resonanz finden.

Das mehrsprachige Sprachgenerierungstool bietet Spieleentwicklern und unabhängigen Verlegern neue Möglichkeiten, Spielerlebnisse und Audioinhalte für internationale Zielgruppen zu übersetzen und mit Spielern und Zuhörern in ihrer eigenen Sprache zu kommunizieren, ohne Kompromisse bei der Qualität oder Genauigkeit der gesprochenen Sprache einzugehen.

Ebenso haben Bildungseinrichtungen jetzt die Mittel, um Lernenden sofort präzise Audioinhalte in den Zielsprache zu bieten, was die Sprachverständnis- und Aussprachefähigkeiten verbessert und gleichzeitig unterschiedliche Lehrmethoden und Lernbedürfnisse internationaler Studenten erfüllt.

Kreative aller Art können das Tool von ElevenLabs nutzen, um die Zugänglichkeit von Inhalten für Menschen mit Sehbehinderungen oder zusätzlichen Lernbedürfnissen zu verbessern, indem sie visuelle Inhalte mit in mehreren Sprachen verfügbarem gesprochenem Text ergänzen.

Ihr anfängliches Set von Voice-AI-Tools, das im Januar 2023 vorgestellt wurde, umfasste die Fähigkeit, jeden Text in Sprache umzuwandeln, mit einer Auswahl an vorgefertigten synthetischen Stimmen und der Möglichkeit, eine Kopie Ihrer Stimme zu erstellen. Das mehrsprachige Sprachsynthesetool ist ein weiterer Schritt in der Mission von ElevenLabs, alle Inhalte weltweit in jeder Sprache und mit jeder Stimme zugänglich zu machen.

Viele Branchen und kreative Sektoren haben diese Technologie bereits übernommen, darunter die Unterstützung unabhängiger Autoren bei der Erstellung von Hörbüchern, das Vertonen von Nebencharakteren in Videospielen, die Unterstützung von Sehbehinderten beim Zugriff auf schriftliche Inhalte im Internet und der Betrieb des ersten KI-Radiosenders der Welt. ElevenLabs hat auch Partnerschaften mit einer Reihe führender Content-Ersteller und Studios geschlossen, darunter KI-Video-Generatoren D-ID, einer der größten Hörbuchverlage der Welt Storytel, die Open-Access-Wissenschaftsvideo-Plattform ScienceCast, die mit ihrem Video-Tool wissenschaftliche Arbeiten auf arXiv zusammenfasst, die weltweit führende Content-Ersteller-Plattform TheSoul Publishing, und beeindruckende Spieleentwickler wie Embark Studios und Paradox Interactive sowie die Medienplattform MNTN.

ElevenLabs verlässt die Beta-Phase und veröffentlicht Eleven Multilingual v2 - ein KI-Sprachmodell für 30 Sprachen

Ähnliche Artikel

Die erste KI, die lachen kann

Sprachkonvertierung

Dubbing v2 vorgestellt

Vorstellung von Music v2