Direkt zum Inhalt

Vorstellung des Stimmenverzerrers

Sagen Sie es, wie Sie es möchten, und verwandeln Sie Ihre Stimme in einen anderen Charakter mit voller Kontrolle über Emotionen, Timing und Ausdruck

Wir haben den Stimmenverzerrer zur Sprachsynthese hinzugefügt. STS ist ein Tool zur Stimmkonvertierung, mit dem Sie eine Aufnahme so umwandeln, dass sie klingt, als wäre sie von einer anderen Stimme gesprochen. Sie können Emotionen, Tonfall und Aussprache gezielt steuern – weit über das hinaus, was mit Text to Speech allein möglich ist. Nutzen Sie es, um mehr Emotionen aus einer bestimmten Stimme herauszuholen oder als Referenz für 'sagen Sie es, wie Sie es wollen'.

In anderen Updates nehmen wir Änderungen an unseren vorgefertigten Stimmen vor. Außerdem haben wir eine Reihe von Verbesserungen im Studio vorgenommen, darunter Normalisierung, Aussprachewörterbuch und mehr Anpassungsoptionen.

Sagen Sie, was Sie möchten, und hören Sie es in einer völlig anderen Stimme – mit voller Kontrolle über die Performance. Erfassen Sie Flüstern, Lachen, Akzente und feine emotionale Nuancen.

Stimmenverzerrer

STS nimmt den Inhalt und Stil der in Ihrem Upload / Ihrer Aufnahme enthaltenen Sprache und ändert die Stimme. Denken Sie an STS als nützlich hauptsächlich für zwei Dinge.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Ein Anwendungsfall ist, mehr Emotionen aus einer bestimmten vorgefertigten Stimme herauszuholen. Laden Sie eine besonders ausdrucksstarke Sprachaufnahme hoch oder nehmen Sie sie auf – der Stimmenverzerrer überträgt Emotionen und Intonation auf eine andere Stimme. Da nicht alle Stimmen allein durch TTS-Prompts starke Emotionen ausdrücken können, machen Sie so zum Beispiel einen professionellen Sprecher oder eine Kinderbuchfigur mit Ihrer eigenen Stimme ausdrucksstärker.

Ein weiterer Anwendungsfall ist die Nutzung des Stimmenverzerrers als Referenz für die Sprechweise. Unser TTS trifft die richtige Intonation meist direkt, aber manchmal möchten Sie sie noch feiner abstimmen. Hier können Sie mit dem Stimmenverzerrer zeigen, wie eine bestimmte Passage klingen soll, und jede beliebige Stimme spricht sie dann entsprechend. Diese Funktion wird noch nützlicher und einfacher, sobald wir den Stimmenverzerrer direkt ins Studio integrieren. Unser Ziel ist es, Ihre Möglichkeiten zur präzisen Bearbeitung des Outputs deutlich zu verbessern.

Sehen Sie sich das Video an, das von einem unserer Community-Mitglieder erstellt wurde:

Forschung

Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wären die Face-Swapping-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.

Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Der Trick bei der Sprachumwandlung besteht darin, den Inhalt der Quellsprache mit den Phonemen der Zielsprache zu rendern. Aber es gibt hier einen Kompromiss, ähnlich wie im Face-Swapping-Beispiel: Je mehr Marker Sie verwenden, um die Attribute eines Gesichts zu kartieren, desto mehr Einschränkungen legen Sie auf das Gesicht, das Sie innerhalb dieser kartieren. Weniger Marker bedeuten weniger Einschränkungen.

Dasselbe gilt für die Sprachumwandlung. Je mehr Vorzug wir der Zielsprache geben, desto mehr riskieren wir, mit der Quellsprache nicht synchron zu sein. Aber wenn wir ihr nicht genug Vorzug geben, riskieren wir, viel von dem zu verlieren, was diese Sprache charakteristisch macht. Zum Beispiel, wenn wir die Aufnahme von jemandem, der wütend schreit, in einer flüsternden Stimme rendern würden, hätten wir ein Problem. Geben wir der Emotion der Quellsprache zu viel Vorzug, verlieren wir den Eindruck, dass es eine flüsternde Stimme ist, die spricht. Zu viel Betonung auf das flüsternde Sprachmuster und wir verlieren die emotionale Ladung der Quellsprache.

Produkt & aktuelle Updates

Änderungen an vorgefertigten Stimmen

Wir werden später in dieser Woche Änderungen an den Standardstimmen in der Sprachsynthese vornehmen. Wir werden die Unterstützung für einige Stimmen einstellen, aber sie durch neue ersetzen. Wir planen, in den kommenden Wochen über 20 hinzuzufügen.

Wir werden auch beginnen, UI-Informationen darüber bereitzustellen, wie lange jede Stimme voraussichtlich verfügbar sein wird. Schließlich werden wir im Dezember daran arbeiten, die Funktionen zur Sprachfreigabe und Nutzungskompensation unserer Plattform zu überarbeiten, um die Sprachvielfalt weiter zu verbessern. Weitere Details dazu in Kürze.

Eleven Turbo v2 & uLaw 8khz Format

Unser Turbo-Modell bündelt monatelange Forschung unseres Technikteams. Es ist für Echtzeit-Interaktionen konzipiert, kann aber für alles verwendet werden, was Sie möchten. Es kommt auch mit dem Standard-(m)uLaw 8kHz-Format für IVR-Systeme.

Normalisierung & Metadaten mit Studio

Sie können jetzt innerhalb von Studio den branchenüblichen Richtlinien für die Einreichung von Hörbüchern folgen. Dies umfasst die Anpassung des Pegels und die Anwendung dynamischer Kompression. Zusätzlich gibt es jetzt die Möglichkeit, Metadaten in Ihr Studio einzubetten (ISBN, Autor und Titel).

Aussprache-Tagebuch

Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Studio-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat.

Derzeit werden IPA und CMU von Turbo V2 Englisch unterstützt, und Wortersetzungen (Aliase) werden von allen Modellen und Sprachen unterstützt. Vollständige Dokumentation finden Sie hier.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Wenn Sie Feedback haben, zögern Sie nicht, uns auf Discord zu kontaktieren!

Sagen Sie, was Sie möchten, und hören Sie es in einer völlig anderen Stimme – mit voller Kontrolle über die Performance. Erfassen Sie Flüstern, Lachen, Akzente und feine emotionale Nuancen.

Entdecken Sie Artikel des ElevenLabs-Teams

Erstellen Sie mit hochwertiger KI-Audio