
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
Einführung von Eleven v3 Alpha
v3 ausprobierenWir haben Speech to Speech (STS) zur Sprachsynthese hinzugefügt. STS ist ein Sprachumwandlungstool, das es Ihnen ermöglicht, eine Aufnahme so klingen zu lassen, als ob sie von einer anderen Stimme gesprochen wird. Es erlaubt Ihnen, Emotionen, Ton und Aussprache über das hinaus zu steuern, was mit TTS allein möglich ist. Nutzen Sie es, um mehr Emotionen aus einer bestimmten Stimme zu extrahieren oder als 'sagen Sie es, wie Sie es wollen'-Referenz.
In anderen Updates nehmen wir Änderungen an unseren vorgefertigten Stimmen vor. Außerdem haben wir eine Reihe von Verbesserungen an Projekten vorgenommen, einschließlich hinzugefügter Normalisierung, Aussprachewörterbuch und mehr Anpassungsoptionen.
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
STS nimmt den Inhalt und Stil der in Ihrem Upload / Ihrer Aufnahme enthaltenen Sprache und ändert die Stimme. Betrachten Sie STS als nützlich hauptsächlich für zwei Dinge.
Eines ist, mehr Emotionen aus einer bestimmten vorgefertigten Stimme zu extrahieren. Laden Sie hoch / nehmen Sie hochgradig expressive Sprache auf und STS wird die Emotionen und Intonation in einer anderen Stimme replizieren. Da nicht alle Stimmen starke Emotionen mit TTS allein ausdrücken können, können Sie jetzt einen professionellen Erzähler oder eine Kinderbuchfigur mit Ihrer eigenen Stimme ausdrucksstärker machen.
Ein weiterer Nutzen von STS ist die Bereitstellung einer 'Referenz' für die Sprachwiedergabe. Während unser TTS normalerweise die Intonation sofort trifft, möchten Sie sie manchmal feinabstimmen. Hier können Sie mit STS demonstrieren, wie eine bestimmte Phrase intoniert werden soll, und dann jede von Ihnen gewählte Stimme es so sagen lassen. Diese Funktionalität wird sofort nützlicher und optimierter, sobald wir STS direkt in Projekte integrieren, aber unser Ziel hier ist es, Ihre Fähigkeit zur präzisen Bearbeitung des Outputs radikal zu verbessern.
Sehen Sie sich das Video an, das von einem unserer Community-Mitglieder erstellt wurde:
Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wäre die Gesichtstausch-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.
Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.
Der Trick bei der Sprachumwandlung besteht darin, den Inhalt der Quellsprache mit den Phonemen der Zielsprache zu rendern. Aber es gibt hier einen Kompromiss, ähnlich wie im Gesichtstausch-Beispiel: Je mehr Marker Sie verwenden, um die Attribute eines Gesichts zu kartieren, desto mehr Einschränkungen legen Sie auf das Gesicht, das Sie darin abbilden. Weniger Marker bedeuten weniger Einschränkungen.
Dasselbe gilt für die Sprachumwandlung. Je mehr Vorzug wir der Zielsprache geben, desto mehr riskieren wir, mit der Quellsprache nicht synchron zu sein. Aber wenn wir ihr nicht genug Vorzug geben, riskieren wir, viel von dem zu verlieren, was diese Sprache charakteristisch macht. Zum Beispiel, wenn wir die Aufnahme von jemandem, der wütend schreit, in einer flüsternden Stimme rendern würden, hätten wir ein Problem. Geben wir der Emotion der Quellsprache zu viel Vorzug, verlieren wir den Eindruck, dass es eine flüsternde Stimme ist. Zu viel Betonung auf das flüsternde Sprachmuster und wir verlieren die emotionale Ladung der Quellsprache.
Wir werden später in dieser Woche Änderungen an den Standardstimmen in der Sprachsynthese vornehmen. Wir werden die Unterstützung für einige Stimmen einstellen, sie aber durch neue ersetzen. Wir planen, in den kommenden Wochen über 20 hinzuzufügen.
Wir werden auch beginnen, UI-Informationen darüber bereitzustellen, wie lange jede Stimme voraussichtlich verfügbar sein wird. Schließlich werden wir im Dezember daran arbeiten, die Funktionen zur Sprachfreigabe und Nutzungskompensation unserer Plattform zu überarbeiten, um die Sprachvielfalt weiter zu verbessern. Weitere Details dazu in Kürze.
Unser Turbo-Modell bündelt monatelange Forschung unseres Technikteams. Es ist für Echtzeit-Interaktionen konzipiert, kann aber für alles verwendet werden, was Sie möchten. Es kommt auch mit dem Standard-(m)uLaw 8kHz-Format für IVR-Systeme.
Sie können jetzt innerhalb von Projekten den branchenüblichen Richtlinien für die Einreichung von Hörbüchern folgen. Dies umfasst die Anpassung des Pegels und die Anwendung dynamischer Kompression. Zusätzlich gibt es jetzt die Möglichkeit, Metadaten in Ihre Projekte einzubetten (ISBN, Autor und Titel).
Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Projekte-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat hochgeladen.
Derzeit werden IPA und CMU von Turbo V2 English unterstützt, und Wortersetzungen (Aliase) werden von allen Modellen und Sprachen unterstützt. Vollständige Dokumentation finden Sie hier.
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
Wenn Sie Feedback haben, zögern Sie nicht, uns auf Discord zu kontaktieren!
Create dynamic multi-character dialogue with Eleven v3 Audio Tags. Script overlapping voices, interruptions, and emotional shifts for natural, human-like AI conversations.
Learn how Voice Cloning works, how to use it, and how to get started.