Direkt zum Inhalt

Vorstellung des Stimmenverzerrers

Verwandeln Sie Ihre Stimme in eine andere Figur – mit voller Kontrolle über Emotionen, Timing und Vortrag.

Der Stimmenverzerrer wurde ursprünglich als Speech-to-Speech bezeichnet. Im Kontext von KI-Stimmenagenten steht „Speech-to-Speech“ auch für kombinierte Architekturen, bei denen ein einzelnes Modell Audioeingaben und -ausgaben direkt verarbeitet. ElevenAgents nutzt für seine Plattform eine fortschrittliche, gestufte Architektur. Mehr erfahren: Gestufte vs. fusionierte Modelle.

Wir haben den

Das gibt Ihnen eine Kontrolle, die

Mehr Emotionen aus einer Stimme herausholen.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Hier ein Beispiel aus unserer Community:

Ein weiterer Anwendungsfall ist die Nutzung des Stimmenverzerrers als Referenz für die Sprechweise. Unser TTS trifft die richtige Intonation meist direkt, aber manchmal möchten Sie sie noch feiner abstimmen. Hier können Sie mit dem Stimmenverzerrer zeigen, wie eine bestimmte Passage klingen soll, und jede beliebige Stimme spricht sie dann entsprechend. Diese Funktion wird noch nützlicher und einfacher, sobald wir den Stimmenverzerrer direkt ins Studio integrieren. Unser Ziel ist es, Ihre Möglichkeiten zur präzisen Bearbeitung des Outputs deutlich zu verbessern.

Forschung

Dazu wird das Bild eines Gesichts aufgenommen und dessen Attribute abgebildet. Die Markierungen im Beispiel unten zeigen genau das – sie bilden die Grenzen, innerhalb derer das andere Gesicht dargestellt wird.

Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wären die Face-Swapping-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.

Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

Produkt und aktuelle Updates

Änderungen bei vorgefertigten Stimmen

Wir nehmen Änderungen an den Standardstimmen in der Sprachsynthese vor. Einige Stimmen werden entfernt und durch neue ersetzt. In den nächsten Wochen kommen über 20 neue Stimmen hinzu.

Wir werden außerdem in der Benutzeroberfläche anzeigen, wie lange jede Stimme voraussichtlich verfügbar bleibt. Im Dezember überarbeiten wir zudem die Funktionen zum Teilen von Stimmen und zur Vergütung, um die Stimmvielfalt zu erhöhen. Weitere Details folgen.

Eleven Turbo v2 & uLaw 8kHz-Format

Turbo v2 ist das Ergebnis monatelanger Forschung unseres Teams. Es ist für Echtzeit-Interaktionen entwickelt, eignet sich aber für jeden Anwendungsfall. Zudem unterstützt es das Standard-(m)uLaw-8kHz-Format für IVR-Systeme.

Normalisierung und Metadaten mit Studio

Studio unterstützt jetzt branchenübliche Vorgaben für Hörbuch-Einreichungen, einschließlich Lautstärkeanpassung und dynamischer Kompression. Sie können außerdem Metadaten (ISBN, Autor, Titel) direkt im Studio-Projekt hinterlegen.

Aussprachewörterbuch

Das war eine der meistgewünschten Funktionen. Letzten Monat haben wir SSML-Tag-Unterstützung für die Angabe der Aussprache mit IPA- und CMU-Wörterbüchern in unseren englischen Modellen hinzugefügt. Jetzt gibt es die Unterstützung für Aussprachewörterbücher auch in der Studio-Oberfläche. Sie können eine Datei mit IPA-, CMU- oder Wortersetzungen (Aliase) hochladen. Wörterbuchdateien nutzen das offene, branchenübliche .PLS-

IPA und CMU werden derzeit von Turbo v2 Englisch unterstützt. Wortersetzungen sind in allen Modellen und Sprachen verfügbar. Die vollständige Dokumentation finden Sie

Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Studio-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat.

Wenn Sie Feedback haben, schreiben Sie uns gerne auf Discord.hier.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Sagen Sie es, wie Sie möchten, und hören Sie es in einer völlig anderen Stimme – mit voller Kontrolle über die Performance. Erfassen Sie Flüstern, Lachen, Akzente und feine emotionale Nuancen.

Entdecken Sie Artikel des ElevenLabs-Teams

Erstellen Sie mit hochwertiger KI-Audio