
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
Einführung von Eleven v3 Alpha
v3 ausprobierenSagen Sie es, wie Sie es möchten, und verwandeln Sie Ihre Stimme in einen anderen Charakter mit voller Kontrolle über Emotionen, Timing und Ausdruck
Wir haben Speech to Speech (STS) zur Sprachsynthese hinzugefügt. STS ist ein Sprachumwandlungstool, mit dem Sie eine Aufnahme so umwandeln können, dass sie klingt, als ob sie von einer anderen Stimme gesprochen wird. Es ermöglicht Ihnen, Emotionen, Ton und Aussprache über das hinaus zu steuern, was mit TTS allein möglich ist. Nutzen Sie es, um mehr Emotionen aus einer bestimmten Stimme herauszuholen oder als Referenz für 'sagen Sie es, wie Sie es wollen'.
In anderen Updates nehmen wir Änderungen an unseren vorgefertigten Stimmen vor. Außerdem haben wir eine Reihe von Verbesserungen im Studio vorgenommen, darunter Normalisierung, Aussprachewörterbuch und mehr Anpassungsoptionen.
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
STS nimmt den Inhalt und Stil der in Ihrem Upload / Ihrer Aufnahme enthaltenen Sprache und ändert die Stimme. Denken Sie an STS als nützlich hauptsächlich für zwei Dinge.
Eines ist, mehr Emotionen aus einer bestimmten vorgefertigten Stimme herauszuholen. Laden Sie hoch / nehmen Sie hochgradig expressive Sprache auf und STS wird die Emotionen und Intonation in einer anderen Stimme replizieren. Da nicht alle Stimmen mit TTS-Eingaben allein starke Emotionen ausdrücken können, können Sie jetzt einen professionellen Erzähler oder eine Kinderbuchfigur mit Ihrer eigenen Stimme ausdrucksstärker machen.
Ein weiterer Nutzen von STS ist die Bereitstellung einer 'Referenz' für die Sprachwiedergabe. Während unser TTS normalerweise die Intonation sofort trifft, möchten Sie sie manchmal feinabstimmen. Hier können Sie mit STS demonstrieren, wie eine bestimmte Phrase intoniert werden soll, und dann jede von Ihnen gewählte Stimme es so sagen lassen. Diese Funktionalität wird sofort nützlicher und optimierter, sobald wir STS direkt in Studio integrieren, aber unser Ziel hier ist es, Ihre Fähigkeit zur präzisen Bearbeitung des Outputs radikal zu verbessern.
Sehen Sie sich das Video an, das von einem unserer Community-Mitglieder erstellt wurde:
Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wären die Face-Swapping-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.
Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.
Der Trick bei der Sprachumwandlung besteht darin, den Inhalt der Quellsprache mit den Phonemen der Zielsprache zu rendern. Aber es gibt hier einen Kompromiss, ähnlich wie im Face-Swapping-Beispiel: Je mehr Marker Sie verwenden, um die Attribute eines Gesichts zu kartieren, desto mehr Einschränkungen legen Sie auf das Gesicht, das Sie innerhalb dieser kartieren. Weniger Marker bedeuten weniger Einschränkungen.
Dasselbe gilt für die Sprachumwandlung. Je mehr Vorzug wir der Zielsprache geben, desto mehr riskieren wir, mit der Quellsprache nicht synchron zu sein. Aber wenn wir ihr nicht genug Vorzug geben, riskieren wir, viel von dem zu verlieren, was diese Sprache charakteristisch macht. Zum Beispiel, wenn wir die Aufnahme von jemandem, der wütend schreit, in einer flüsternden Stimme rendern würden, hätten wir ein Problem. Geben wir der Emotion der Quellsprache zu viel Vorzug, verlieren wir den Eindruck, dass es eine flüsternde Stimme ist, die spricht. Zu viel Betonung auf das flüsternde Sprachmuster und wir verlieren die emotionale Ladung der Quellsprache.
Wir werden später in dieser Woche Änderungen an den Standardstimmen in der Sprachsynthese vornehmen. Wir werden die Unterstützung für einige Stimmen einstellen, aber sie durch neue ersetzen. Wir planen, in den kommenden Wochen über 20 hinzuzufügen.
Wir werden auch beginnen, UI-Informationen darüber bereitzustellen, wie lange jede Stimme voraussichtlich verfügbar sein wird. Schließlich werden wir im Dezember daran arbeiten, die Funktionen zur Sprachfreigabe und Nutzungskompensation unserer Plattform zu überarbeiten, um die Sprachvielfalt weiter zu verbessern. Weitere Details dazu in Kürze.
Unser Turbo-Modell bündelt monatelange Forschung unseres Technikteams. Es ist für Echtzeit-Interaktionen konzipiert, kann aber für alles verwendet werden, was Sie möchten. Es kommt auch mit dem Standard-(m)uLaw 8kHz-Format für IVR-Systeme.
Sie können jetzt innerhalb von Studio den branchenüblichen Richtlinien für die Einreichung von Hörbüchern folgen. Dies umfasst die Anpassung des Pegels und die Anwendung dynamischer Kompression. Zusätzlich gibt es jetzt die Möglichkeit, Metadaten in Ihr Studio einzubetten (ISBN, Autor und Titel).
Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Studio-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat.
Derzeit werden IPA und CMU von Turbo V2 Englisch unterstützt, und Wortersetzungen (Aliase) werden von allen Modellen und Sprachen unterstützt. Vollständige Dokumentation finden Sie hier.
Wenn Sie Feedback haben, zögern Sie nicht, uns auf Discord zu kontaktieren!
Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.