Hallo von ElevenLabs

10. Aug. 2022 • 3 Minuten Lesezeit

A young man with curly hair wearing a white t-shirt, smiling softly against a plain background.

Die nächste Generation der Sprach-KI entwickeln

Was ist ElevenLabs?

Wir sind ein Forschungsunternehmen für Sprachtechnologie. Wir nutzen künstliche Intelligenz (KI) und maschinelles Lernen (ML), um die leistungsstärksten Werkzeuge für Sprachsynthese, Stimmkonvertierung und Synchronisation für Content-Ersteller, Webplattformen und Produktionsstudios in verschiedenen Branchen bereitzustellen.

Was sind Synchronisation, Stimmkonvertierung und Sprachsynthese?

Synchronisation ist ein Prozess, bei dem ein Film mit einer anderen Sprachtonspur versehen wird. Gemeint ist oft das Ersetzen der Originalstimmen der Schauspieler durch die von Darstellern, die eine andere Sprache sprechen – auch bekannt als "Re-Voicing" – traditionell eine kostspielige und zeitaufwändige Aufgabe. Bei Eleven nutzen wir KI, um dies automatisch zu tun, während die Originalstimmen der Schauspieler über Sprachgrenzen hinweg erhalten bleiben.

Stimmkonvertierung ermöglicht es einer Person, in der Stimme einer anderen zu sprechen. Auch bekannt als Stimmenklonen, ist es ein Prozess, bei dem eine Zielstimme kodiert und auf eine Quellstimme übertragen wird. In jemandes Stimme zu sprechen, wirft ethische Bedenken auf, da es für böswillige Zwecke genutzt werden kann, aber bei Eleven setzen wir unsere Technologie nur mit Zustimmung der Person oder zu Demonstrationszwecken ein, ohne Interessenkonflikte zu verursachen.

Text-to-Speech (TTS) ist die Grundlage aller Sprachsynthesetechnologie. Die TTS-Technologie hat sich im Laufe der Jahre radikal verbessert, klingt jedoch oft noch robotisch. Das liegt daran, dass das flüssige Aussprechen von Wörtern allein nicht ausreicht, um Sprache menschlich klingen zu lassen. Es ist der absichtsgetriebene Ton und das Tempo, die aus dem Verständnis dessen, was gesagt wird, kommen, die es natürlich klingen lassen. Bei Eleven streben wir genau das an: Indem wir unser Modell einer Fülle von menschlichen Sprachdaten aussetzen, trainieren wir es, sowohl den logischen als auch den emotionalen Kontext von Äußerungen zu verstehen und die Wiedergabe entsprechend anzupassen. Wir können auch die Standardwiedergabe für jeden gewünschten Effekt überschreiben.

Was macht Eleven anders?

Unser Synchronisationstool ermöglicht es Ihnen, ein Video automatisch in einer anderen Sprache neu zu vertonen, während die charakteristischen Merkmale der Originalstimme des Sprechers erhalten bleiben. Wir sind das erste Unternehmen mit der Mission, spezielle Werkzeuge für Sprach-zu-Sprach-Übersetzung, die die Sprecheridentität zwischen den Sprachen bewahrt, bereitzustellen. Unsere Technologie ermöglicht es Ihnen, mehrsprachige, lokalisierte Audiotracks mit muttersprachlicher Flüssigkeit und Vokabular zu produzieren, in Ihrer eigenen Stimme, mit Ihrem Sprachmuster, und ohne die Notwendigkeit, die visuellen Inhalte neu zu bearbeiten. Bei Eleven stellen wir uns eine Zukunft vor, in der alle gesprochenen Inhalte in jeder Sprache zugänglich sind, über Streaming, Film, Podcasts, Hörbücher, Gaming, Werbung, sowie schließlich Echtzeitgespräche. Wir hoffen, diese Zukunft zu verwirklichen, indem wir ein weitaus immersiveres und nahtloseres Erlebnis bieten, als es Untertitel je könnten. Die erste Version unseres Tools bietet Englisch zu Europäisch-Spanisch Synchronisation.

Produktionsqualität in der automatischen Synchronisation zu erreichen, ist nur möglich, wenn wir Fortschritte in zwei angrenzenden Sprachtechnologiebereichen machen – Stimmkonvertierung und Sprachgenerierung, für die wir ebenfalls spezielle Werkzeuge entwickeln, parallel zu unserer Synchronisationssoftware. Unsere Produkte unterstützen sowohl Stimmenklonen als auch synthetische Sprache. Wir gehen über die Bereitstellung von menschlich klingenden, nicht-robotischen Stimmen hinaus (oder sogar Sprache, die vom Original nicht zu unterscheiden ist, wenn sie auf einem Beispieldatensatz trainiert wurde). Wir können den Ton von Äußerungen präzise auf jeden gewünschten Effekt anpassen und unzählige Iterationen innerhalb eines bestimmten Stils der Wiedergabe erzeugen – genau wie ein Schauspieler.

Kurz gesagt, unser Synchronisationstool soll es ermöglichen, bestehende Inhalte einem breiteren Publikum zugänglich zu machen. Unsere Sprachgenerierungs- und Stimmkonvertierungstools sollen die Zeit und Kosten optimieren, die mit der Produktion von neuen Inhalten verbunden sind, während der Produktionswert maximiert wird. Durch Synchronisation hoffen wir in erster Linie, sowohl den Erstellern zu ermöglichen, ihre Reichweite zu erweitern, als auch potenziellen Zuschauern zu helfen, Inhalte zu entdecken, die sie relevant und fesselnd finden, unabhängig davon, welche Sprache sie verstehen.

Entdecken Sie Artikel des ElevenLabs-Teams

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Impact

Expanding access: patients and clinicians can now apply directly on the ElevenLabs website

One year ago, the ElevenLabs Impact Program set out to provide one million voices to people with permanent speech loss caused by conditions such as ALS, head and neck cancer, cerebral palsy, and PSP. Today, we’re taking a major step toward that goal.

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden

Bereitgestellt von ElevenLabs Agenten