Einführung von Speech to Speech

Zuletzt aktualisiert 16. Okt. 2025 • 8 Minuten Lesezeit

Sagen Sie es, wie Sie es möchten, und verwandeln Sie Ihre Stimme in einen anderen Charakter mit voller Kontrolle über Emotionen, Timing und Ausdruck

Wir haben Speech to Speech (STS) zur Sprachsynthese hinzugefügt. STS ist ein Sprachumwandlungstool, mit dem Sie eine Aufnahme so umwandeln können, dass sie klingt, als ob sie von einer anderen Stimme gesprochen wird. Es ermöglicht Ihnen, Emotionen, Ton und Aussprache über das hinaus zu steuern, was mit TTS allein möglich ist. Nutzen Sie es, um mehr Emotionen aus einer bestimmten Stimme herauszuholen oder als Referenz für 'sagen Sie es, wie Sie es wollen'.

In anderen Updates nehmen wir Änderungen an unseren vorgefertigten Stimmen vor. Außerdem haben wir eine Reihe von Verbesserungen im Studio vorgenommen, darunter Normalisierung, Aussprachewörterbuch und mehr Anpassungsoptionen.

KI Voice Changer

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.

Speech to Speech

STS nimmt den Inhalt und Stil der in Ihrem Upload / Ihrer Aufnahme enthaltenen Sprache und ändert die Stimme. Denken Sie an STS als nützlich hauptsächlich für zwei Dinge.

Eines ist, mehr Emotionen aus einer bestimmten vorgefertigten Stimme herauszuholen. Laden Sie hoch / nehmen Sie hochgradig expressive Sprache auf und STS wird die Emotionen und Intonation in einer anderen Stimme replizieren. Da nicht alle Stimmen mit TTS-Eingaben allein starke Emotionen ausdrücken können, können Sie jetzt einen professionellen Erzähler oder eine Kinderbuchfigur mit Ihrer eigenen Stimme ausdrucksstärker machen.

Ein weiterer Nutzen von STS ist die Bereitstellung einer 'Referenz' für die Sprachwiedergabe. Während unser TTS normalerweise die Intonation sofort trifft, möchten Sie sie manchmal feinabstimmen. Hier können Sie mit STS demonstrieren, wie eine bestimmte Phrase intoniert werden soll, und dann jede von Ihnen gewählte Stimme es so sagen lassen. Diese Funktionalität wird sofort nützlicher und optimierter, sobald wir STS direkt in Studio integrieren, aber unser Ziel hier ist es, Ihre Fähigkeit zur präzisen Bearbeitung des Outputs radikal zu verbessern.

Sehen Sie sich das Video an, das von einem unserer Community-Mitglieder erstellt wurde:

Forschung

Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wären die Face-Swapping-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.

Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

Der Trick bei der Sprachumwandlung besteht darin, den Inhalt der Quellsprache mit den Phonemen der Zielsprache zu rendern. Aber es gibt hier einen Kompromiss, ähnlich wie im Face-Swapping-Beispiel: Je mehr Marker Sie verwenden, um die Attribute eines Gesichts zu kartieren, desto mehr Einschränkungen legen Sie auf das Gesicht, das Sie innerhalb dieser kartieren. Weniger Marker bedeuten weniger Einschränkungen.

Dasselbe gilt für die Sprachumwandlung. Je mehr Vorzug wir der Zielsprache geben, desto mehr riskieren wir, mit der Quellsprache nicht synchron zu sein. Aber wenn wir ihr nicht genug Vorzug geben, riskieren wir, viel von dem zu verlieren, was diese Sprache charakteristisch macht. Zum Beispiel, wenn wir die Aufnahme von jemandem, der wütend schreit, in einer flüsternden Stimme rendern würden, hätten wir ein Problem. Geben wir der Emotion der Quellsprache zu viel Vorzug, verlieren wir den Eindruck, dass es eine flüsternde Stimme ist, die spricht. Zu viel Betonung auf das flüsternde Sprachmuster und wir verlieren die emotionale Ladung der Quellsprache.

Produkt & aktuelle Updates

Änderungen an vorgefertigten Stimmen

Wir werden später in dieser Woche Änderungen an den Standardstimmen in der Sprachsynthese vornehmen. Wir werden die Unterstützung für einige Stimmen einstellen, aber sie durch neue ersetzen. Wir planen, in den kommenden Wochen über 20 hinzuzufügen.

Wir werden auch beginnen, UI-Informationen darüber bereitzustellen, wie lange jede Stimme voraussichtlich verfügbar sein wird. Schließlich werden wir im Dezember daran arbeiten, die Funktionen zur Sprachfreigabe und Nutzungskompensation unserer Plattform zu überarbeiten, um die Sprachvielfalt weiter zu verbessern. Weitere Details dazu in Kürze.

Eleven Turbo v2 & uLaw 8khz Format

Unser Turbo-Modell bündelt monatelange Forschung unseres Technikteams. Es ist für Echtzeit-Interaktionen konzipiert, kann aber für alles verwendet werden, was Sie möchten. Es kommt auch mit dem Standard-(m)uLaw 8kHz-Format für IVR-Systeme.

Normalisierung & Metadaten mit Studio

Sie können jetzt innerhalb von Studio den branchenüblichen Richtlinien für die Einreichung von Hörbüchern folgen. Dies umfasst die Anpassung des Pegels und die Anwendung dynamischer Kompression. Zusätzlich gibt es jetzt die Möglichkeit, Metadaten in Ihr Studio einzubetten (ISBN, Autor und Titel).

Aussprache-Tagebuch

Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Studio-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat.

Derzeit werden IPA und CMU von Turbo V2 Englisch unterstützt, und Wortersetzungen (Aliase) werden von allen Modellen und Sprachen unterstützt. Vollständige Dokumentation finden Sie hier.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

Wenn Sie Feedback haben, zögern Sie nicht, uns auf Discord zu kontaktieren!

KI Voice Changer

Geben Sie Ihre Inhalte mit einer anderen Stimme wieder und behalten Sie dabei die volle Kontrolle.

Entdecken Sie Artikel des ElevenLabs-Teams

Impact

Impact

Restoring identity through voice in Africa: Senses Hub x ElevenLabs

Millions of people across Africa live with speech impairments or loss of voice. Through our partnership with Senses Hub, we’re developing personalized, culturally relevant voices that restore identity, confidence, and connection across the continent.

Company

Company

Powering India’s new generation of voice AI agents

A look at the architecture, players, and infrastructure driving India’s 2025 voice-AI landscape

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden

Bereitgestellt von ElevenLabs Agenten