Wir stellen vor: Eleven Multilingual v1: Unser neues Sprachsynthesemodell

27. Apr. 2023 • 5 Minuten Lesezeit

Unser aktueller Deep-Learning-Ansatz nutzt mehr Daten, mehr Rechenleistung und neuartige Techniken, um unser fortschrittlichstes Sprachsynthesemodell bereitzustellen

Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

Wir freuen uns, heute Eleven Multilingual v1 auf den Markt zu bringen – unser fortschrittliches Sprachsynthesemodell, das sieben neue Sprachen unterstützt: Französisch, Deutsch, Hindi, Italienisch, Polieren, Portugiesisch, Und Spanisch. Aufbauend auf der Forschung, die Eleven Monolingual v1 zugrunde liegt, nutzt unser aktueller Deep-Learning-Ansatz mehr Daten, mehr Rechenleistung und neuartige Techniken in einem zunehmend ausgefeilten Modell, das in der Lage ist, Textnuancen zu verstehen und eine emotional reiche Leistung zu liefern. Dieser Fortschritt erweitert den kreativen Horizont von Kreativen, Spieleentwicklern und Herausgebern und ebnet den Weg für die Nutzung generativer Medien zur Erstellung lokalisierterer, zugänglicherer und einfallsreicherer Inhalte.

Das neue Modell ist für alle Abonnementpläne verfügbar und Sie können es jetzt auf unserer Beta-Plattform ausprobieren.

ElevenLabs

Um es zu verwenden, wählen Sie es einfach aus dem neu hinzugefügten Dropdown-Menü im Bereich „Sprachsynthese“ aus.

Forschungsübersicht

Ähnlich wie sein Vorgänger basiert das neue Modell vollständig auf unserer internen Forschung. Es behält alle Stärken, die Elf einsprachig v1 ein hervorragendes Tool zum Geschichtenerzählen, beispielsweise die Fähigkeit, die Darbietung dem Kontext anzupassen und Absichten und Emotionen hyperrealistisch zu vermitteln. Diese Funktionen wurden jetzt durch mehrsprachiges Datentraining auf neu unterstützte Sprachen erweitert.

Ein bemerkenswertes Merkmal des Modells ist seine Fähigkeit, mehrsprachigen Text zu erkennen und ihn angemessen zu artikulieren. Sie können jetzt Generieren Sie Sprache in mehreren Sprachen mithilfe einer einzigen Eingabeaufforderung wobei die einzigartigen Stimmmerkmale jedes Sprechers erhalten bleiben. Für optimale Ergebnisse empfehlen wir die Bereitstellung einer einsprachigen Eingabeaufforderung. Obwohl das Modell bereits eine recht gute Leistung mit mehreren Sprachen gleichzeitig bietet, sind weitere Verbesserungen erforderlich.

Das neue Modell ist kompatibel mit anderen VoiceLab Funktionen wie Instant Voice Cloning und Voice Design. Von allen erstellten Stimmen wird erwartet, dass sie in allen Sprachen die meisten ihrer ursprünglichen Sprachmerkmale beibehalten, einschließlich ihres ursprünglichen Akzents.

Allerdings hat das Modell bekannte Einschränkungen: Zahlen, Akronyme und Fremdwörter werden manchmal standardmäßig auf Englisch angezeigt, wenn sie in einer anderen Sprache abgefragt werden. Beispielsweise kann die Zahl „11“ oder das Wort „Radio“ in einer spanischen Eingabeaufforderung genauso ausgesprochen werden wie im Englischen. Wir empfehlen, Akronyme und Zahlen in der Zielsprache auszuschreiben, während wir an Verbesserungen arbeiten.

Demokratisierung der Stimme

ElevenLabs wurde mit dem Traum gegründet, alle Inhalte in jeder Sprache und jeder Stimme allgemein zugänglich zu machen. Unsere Teammitglieder kommen aus ganz Europa, Asien und den USA. Da unser Team und die Welt zunehmend mehrsprachig werden, stehen wir immer stärker hinter der Vision, KI-Stimmen in menschlicher Qualität in jeder Sprache verfügbar zu machen.

Die neueste Version unserer Text-to-Speech (TTS) Modell ist nur der erste Schritt auf unserem Weg, diese Vision Wirklichkeit werden zu lassen. Mit dem Aufkommen von KI-Stimmen in menschlicher Qualität können Benutzer und Unternehmen jetzt Audioinhalte entsprechend ihren Bedürfnissen, Prioritäten und Vorlieben erstellen und anpassen. Dies hat bereits gezeigt, dass das Potenzial besteht, gleiche Wettbewerbsbedingungen für Kreative, kleine Unternehmen und unabhängige Künstler zu schaffen. Indem sie die Leistungsfähigkeit von KI-Audio nutzen, können Benutzer jetzt hochwertige Hörerlebnisse entwickeln, die mit denen größerer Organisationen mit mehr Ressourcen mithalten können.

Diese Vorteile erstrecken sich jetzt auch auf mehrsprachige, multikulturelle und pädagogische Anwendungen, indem sie Benutzern, Unternehmen und Institutionen die Möglichkeit geben, authentische Audiodateien zu produzieren, die ein breiteres Publikum ansprechen. Indem KI eine große Bandbreite an Stimmen, Akzenten und Sprachen bereitstellt, trägt sie dazu bei, kulturelle Unterschiede zu überbrücken und das globale Verständnis zu fördern. Wir bei Eleven glauben, dass diese neu gewonnene Zugänglichkeit letztendlich mehr Kreativität, Innovation und Vielfalt fördert.

Inhaltsersteller die ein vielfältiges Publikum ansprechen möchten verfügen jetzt über die Mittel, um kulturelle Lücken zu überbrücken und Inklusivität zu fördern.

Spieleentwickler Und Verlag kann umfassende, lokalisierte Erlebnisse für ein internationales Publikum schaffen, Sprachbarrieren überwinden und eine Verbindung mit Spielern und Zuhörern herstellen, um Engagement und Effizienz zu maximieren, ohne dass dabei Qualität oder Genauigkeit verloren gehen.

Bildungseinrichtungen haben jetzt die Möglichkeit, Audioinhalte für verschiedene Benutzer in ihren Zielsprachen zu erstellen und so das Sprachverständnis und sogar die Aussprachefähigkeiten zu verbessern und gleichzeitig auf unterschiedliche Unterrichtsstile und Lernbedürfnisse einzugehen.

Institute für Barrierefreiheit kann Menschen mit Sehbehinderungen oder Lernschwierigkeiten jetzt noch besser unterstützen, indem es ihnen die Möglichkeit gibt, weniger zugängliche Ressourcen einfach in ein Medium umzuwandeln, das ihren Bedürfnissen sowohl inhaltlich als auch formal entspricht.

Wir können es kaum erwarten, zu sehen, wie unsere aktuellen und zukünftigen Schöpfer und Entwickler die Grenzen des Möglichen erweitern!