ElevenLabs verlässt die Beta-Phase und startet Eleven Multilingual v2: Ein KI-Sprachmodell für 30 Sprachen

22. Aug. 2023 • 4 Minuten Lesezeit

Die KI-Sprachplattform ElevenLabs erreicht einen entscheidenden Schritt in ihren Bemühungen, Sprachbarrieren im Inhalt zu beseitigen, mit der Einführung eines neuen Deep-Learning-Basismodells, das mehrsprachige Fähigkeiten in 30 Sprachen unterstützt: Eleven Multilingual v2
Dieser Fortschritt ermöglicht es Medienunternehmen, Spieleentwicklern, Verlagen und unabhängigen Kreatoren weltweit, die Zugänglichkeit ihrer Inhalte erheblich zu verbessern
Diese neuen Funktionen, die auf eine Reihe von Neuerungen und Verbesserungen seit dem Start der Plattform im Januar folgen, markieren auch das offizielle Ende der Beta-Phase des Unternehmens
Die Mission von ElevenLabs ist es, alle Inhalte in jeder Sprache und mit jeder Stimme universell zugänglich zu machen

London, Vereinigtes Königreich - ElevenLabs, der weltweit führende Anbieter von KI-Sprachsoftware, hat heute ein neues mehrsprachiges Sprachgenerierungsmodell eingeführt das in der Lage ist, präzise KI-Klänge „reich an Emotionen“ in 30 Sprachen zu erzeugen.

Dieser Fortschritt, der vollständig auf internen Forschungen basiert, ermöglicht es Kreatoren, lokalisierte Audioinhalte für internationale Märkte in Europa, Asien und dem Nahen Osten zu produzieren. ElevenLabs hat die letzten 18 Monate damit verbracht, die Merkmale der menschlichen Sprache zu analysieren, neue Mechanismen zu entwickeln, um Kontext zu verstehen und Emotionen in der Sprachgenerierung zu vermitteln, sowie neue und einzigartige Stimmen zu synthetisieren.

Mit Eleven Multilingual v2, wenn ein Text in die Sprachsyntheseplattform von ElevenLabs eingegeben wird, kann das neue Modell automatisch fast 30 geschriebene Sprachen identifizieren und Sprache mit einem beispiellosen Maß an Authentizität erzeugen.

Darüber hinaus, ob es sich um eine synthetische oder eine geklonte Stimme handelt, bleiben die einzigartigen Merkmale der Stimme des Sprechers in allen Sprachen erhalten, einschließlich seines ursprünglichen Akzents. So kann dieselbe Stimme verwendet werden, um Inhalte in 30 verschiedenen Sprachen zum Leben zu erwecken.

Diese Einführung folgt auf die Einführung des professionellen Stimmklonens für alle Kreatoren auf der Plattform. Dieses Produkt-Update, das gleichzeitig mit zusätzlichen Sicherheitsfunktionen eingeführt wurde, ermöglicht es den Nutzern, eine perfekte digitale Kopie ihrer eigenen Stimme zu erstellen; die praktisch

nicht vom Original zu unterscheiden ist. Mit dieser neuen Version kann Ihre Stimme in den etwa 30 vom mehrsprachigen Modell angebotenen Sprachen sprechen.

Die unterstützten Sprachen umfassen: Koreanisch, Niederländisch, Türkisch, Schwedisch, Indonesisch, Vietnamesisch, Philippinisch, Ukrainisch, Griechisch, Tschechisch, Finnisch, Rumänisch, Dänisch, Bulgarisch, Malaiisch, Ungarisch, Norwegisch, Slowakisch, Kroatisch, Klassisches Arabisch und Tamil. Sie ergänzen die zuvor verfügbaren Sprachen, darunter Englisch, Polnisch, Deutsch, Spanisch, Französisch, Italienisch, Hindi und Portugiesisch.

Nach den jüngsten Funktionseinführungen und den kontinuierlichen Verbesserungen der Plattform hat ElevenLabs heute auch bestätigt, dass die Plattform offiziell ihre Beta-Phase verlässt. Dieser Übergang markiert einen Wendepunkt im Engagement des Unternehmens, zuverlässige und fortschrittliche Werkzeuge für seine über eine Million Nutzer weltweit bereitzustellen.

Zukünftig plant ElevenLabs, einen Mechanismus einzuführen, der es Nutzern ermöglicht, ihre Stimmen auf der Plattform zu teilen und von der Entwicklung neuer Klänge zu profitieren, wodurch die Möglichkeiten der Zusammenarbeit zwischen Mensch und KI gefördert werden.

Mati Staniszewski, CEO und Mitbegründer von ElevenLabs, kommentiert:

„ElevenLabs wurde mit dem Ziel gegründet, alle Inhalte in jeder Sprache und mit jeder Stimme universell zugänglich zu machen. Mit der Veröffentlichung von Eleven Multilingual v2 kommen wir unserem Ziel, diesen Traum Wirklichkeit werden zu lassen und KI-Stimmen in menschlicher Qualität in allen Dialekten bereitzustellen, einen Schritt näher.

„Unsere Sprachsynthesewerkzeuge ermöglichen es, alle auf eine Stufe zu stellen und allen Kreatoren hochwertige Audiofähigkeiten zu bieten. Diese Vorteile erstrecken sich nun auf mehrsprachige Anwendungen in fast 30 Sprachen. Langfristig hoffen wir, mit Hilfe der KI noch mehr Sprachen und Stimmen abzudecken und Sprachbarrieren im Inhalt zu beseitigen. Bei ElevenLabs glauben wir, dass diese Fortschritte in der Zugänglichkeit letztendlich Kreativität, Innovation und Vielfalt fördern werden.“

Indem die Kosten und Ressourcen für die Erstellung hochwertiger Audioinhalte in mehreren Sprachen reduziert werden, ermöglicht ElevenLabs Unternehmen und Kreatoren, Inhalte zu produzieren, die kreativer und zugänglicher sind und alle Kulturen und Sprachen berücksichtigen.

Für unabhängige Spieleentwickler und Verleger ermöglicht das mehrsprachige Sprachgenerierungswerkzeug, Spielerlebnisse und Audioinhalte für internationale Zielgruppen zu übersetzen und eine Verbindung zu Spielern und Zuhörern in ihrer eigenen Sprache herzustellen, ohne die Qualität oder Genauigkeit des gesprochenen Audios zu beeinträchtigen.

Ebenso können Bildungseinrichtungen nun den Lernenden sofort präzise Audioinhalte in den Zielsprache bereitstellen, was die Fähigkeiten im Sprachverständnis und in der Aussprache stärkt und auf die unterschiedlichen Lehrstile und Lernbedürfnisse internationaler Studierender eingeht.

Kreatoren aller Art können das Werkzeug von ElevenLabs nutzen, um die Zugänglichkeit von Inhalten für Menschen mit Sehbehinderungen oder zusätzlichen Lernbedürfnissen zu verbessern, indem sie visuelle Inhalte durch Sprache in mehreren Sprachen ergänzen.

Das erste Set von KI-Sprachwerkzeugen, das im Januar 2023 vorgestellt wurde, umfasste die Möglichkeit, jeden Text in Sprache zu verwandeln, mit einer Auswahl vorgefertigter synthetischer Stimmen und der Möglichkeit, einen Klon Ihrer eigenen Stimme zu erstellen. Das mehrsprachige Sprachsynthesewerkzeug ist ein weiterer Schritt in der Mission von ElevenLabs, alle Inhalte in jeder Sprache und mit jeder Stimme universell zugänglich zu machen.

Die Technologie wurde bereits in vielen kreativen Sektoren und Bereichen übernommen, darunter die Möglichkeit für unabhängige Autoren, Hörbücher zu erstellen, Nebencharakteren in Videospielen eine Stimme zu geben, Sehbehinderten den Zugang zu schriftlichen Online-Inhalten zu ermöglichen und den weltweit ersten KI-Radiosender zu betreiben. ElevenLabs hat sich auch mit einer Reihe führender Kreatoren und Content-Studios zusammengetan, darunter die KI-Videogeneratoren D-ID, einer der größten Hörbuchverlage der Welt , Storytel, die Open-Access-Wissenschaftsvideoplattform ScienceCast deren Videogenerierungswerkzeug die auf arXiv veröffentlichten wissenschaftlichen Forschungsarbeiten zusammenfasst, die weltweit führende Content-Erstellungsplattform TheSoul Publishing, unglaubliche Spieleentwickler wie Embark Studios und Paradox Interactive, und die Multimedia-Plattform MNTN.

Entdecken Sie Artikel des ElevenLabs-Teams

Product

Product

Introducing Agent Workflows

Workflows, our visual editor for designing complex conversation flows in agents platform, is now live.

Customer stories

Customer stories

Avidio scales personalised outreach with hyper-personalized video

Delivering authentic ad-style videos powered by human-sounding AI voices by ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden

Bereitgestellt von ElevenLabs Agenten