.webp&w=3840&q=80)
Die Reader-App ist weltweit in 32 Sprachen verfügbar
- Kategorie
- Produkte
- Datum
Verwandeln Sie Ihre Stimme in eine andere Figur – mit voller Kontrolle über Emotionen, Timing und Vortrag.
Der Stimmenverzerrer wurde ursprünglich als Speech-to-Speech bezeichnet. Im Kontext von KI-Stimmenagenten steht „Speech-to-Speech“ auch für kombinierte Architekturen, bei denen ein einzelnes Modell Audioeingaben und -ausgaben direkt verarbeitet. ElevenAgents nutzt für seine Plattform eine fortschrittliche, gestufte Architektur. Mehr erfahren: Gestufte vs. fusionierte Modelle.
Wir haben den
Mehr Emotionen aus einer Stimme herausholen.

Hier ein Beispiel aus unserer Community:
Ein weiterer Anwendungsfall ist die Nutzung des Stimmenverzerrers als Referenz für die Sprechweise. Unser TTS trifft die richtige Intonation meist direkt, aber manchmal möchten Sie sie noch feiner abstimmen. Hier können Sie mit dem Stimmenverzerrer zeigen, wie eine bestimmte Passage klingen soll, und jede beliebige Stimme spricht sie dann entsprechend. Diese Funktion wird noch nützlicher und einfacher, sobald wir den Stimmenverzerrer direkt ins Studio integrieren. Unser Ziel ist es, Ihre Möglichkeiten zur präzisen Bearbeitung des Outputs deutlich zu verbessern.
Forschung
Um Quellsprache in Zielsprache umzuwandeln, müssen wir den Inhalt der Quellsprache mit den Merkmalen der Zielsprache ausdrücken. Ein gutes Beispiel wären die Face-Swapping-Apps, die es Ihnen ermöglichen, Ihr Gesicht mit dem eines anderen zu mischen, um ein Bild von beiden als eines zu erstellen.
Der Weg, dies zu tun, besteht darin, das Bild eines Gesichts zu nehmen und seine Attribute zu kartieren. Die Marker im untenstehenden Beispiel tun genau das: Sie sind die Grenzen, innerhalb derer das andere Gesicht gerendert würde.
Produkt und aktuelle Updates
Änderungen bei vorgefertigten Stimmen
Eleven Turbo v2 & uLaw 8kHz-Format
Turbo v2 ist das Ergebnis monatelanger Forschung unseres Teams. Es ist für Echtzeit-Interaktionen entwickelt, eignet sich aber für jeden Anwendungsfall. Zudem unterstützt es das Standard-(m)uLaw-8kHz-Format für IVR-Systeme.
Studio unterstützt jetzt branchenübliche Vorgaben für Hörbuch-Einreichungen, einschließlich Lautstärkeanpassung und dynamischer Kompression. Sie können außerdem Metadaten (ISBN, Autor, Titel) direkt im Studio-Projekt hinterlegen.
Das war eine der meistgewünschten Funktionen. Letzten Monat haben wir SSML-Tag-Unterstützung für die Angabe der Aussprache mit IPA- und CMU-Wörterbüchern in unseren englischen Modellen hinzugefügt. Jetzt gibt es die Unterstützung für Aussprachewörterbücher auch in der Studio-Oberfläche. Sie können eine Datei mit IPA-, CMU- oder Wortersetzungen (Aliase) hochladen. Wörterbuchdateien nutzen das offene, branchenübliche .PLS-
Das Hinzufügen eines Aussprachewörterbuchs war eine unserer am häufigsten angeforderten Funktionen. Letzten Monat haben wir die Hinzufügung von SSML-Tags zur Spezifizierung der Aussprache unter Verwendung der IPA- und CMU-Wörterbücher für unsere englischen Modelle implementiert. Wir haben jetzt die Unterstützung für das Aussprachewörterbuch in unserer Studio-UI veröffentlicht, sodass Sie eine Datei hochladen können, die die Aussprache mit IPA, CMU oder Wortersetzungen angibt. Wörterbuchdateien werden im branchenüblichen und offenen .PLS Lexikon-Dateiformat.
Wenn Sie Feedback haben, schreiben Sie uns gerne auf Discord.hier.
Sagen Sie es, wie Sie möchten, und hören Sie es in einer völlig anderen Stimme – mit voller Kontrolle über die Performance. Erfassen Sie Flüstern, Lachen, Akzente und feine emotionale Nuancen.
.webp&w=3840&q=80)


