.webp&w=3840&q=80)
Vibe Draw entwickeln: Kombination von ElevenLabs mit FLUX Kontext für sprachgesteuerte Bilderstellung
- Kategorie
- Entwickler
- Datum
Wir führen integrierte Entitäts-Redaktion, verbesserte Indic-Englisch-Transkription, einen neuen No Verbatim-Modus und erweiterte Keyterm-Prompts mit bis zu 1.000 Begriffen ein.
Diese Verbesserungen geben Entwicklern mehr Kontrolle über Datenschutz, mehrsprachige Genauigkeit, Transkriptqualität und domänenspezifische Präzision.
Scribe v2 kann jetzt automatisch sensible Entitäten in Transkripten erkennen und entfernen – darunter Namen, Kreditkartennummern, Sozialversicherungsnummern und andere personenbezogene Daten.
Die Redaktion erfolgt während der Transkription. Sensible Daten werden entfernt, bevor sie in Ihrem Speicher oder nachgelagerten Systemen ankommen.
Das ist besonders relevant für Teams im Gesundheitswesen, Finanzbereich und Kundensupport, wo Datenschutzvorgaben verlangen, dass personenbezogene Daten vor Speicherung oder Weitergabe entfernt werden.
In Indien mischen Sprecher häufig Englisch mit Hindi, Telugu, Kannada und anderen indischen Sprachen. Viele Transkriptionssysteme transliterieren englische Wörter in indische Schriftzeichen, was zu Transkripten führt, die nicht der tatsächlichen Kommunikation entsprechen.
Scribe v2 transkribiert englische Wörter immer in englischer Schreibweise, unabhängig von der Umgebungssprache. Das funktioniert automatisch, ohne Sprachkonfiguration. Ob Sie Englisch, Hindi oder keinen Sprachcode angeben – englische Wörter bleiben im lateinischen Alphabet.
Das gilt für alle indischen Sprachen, nicht nur für Hindi-Englisch. Wechselt ein Sprecher zwischen Telugu und Englisch oder Kannada und Englisch, werden die englischen Anteile korrekt transkribiert.
Wir führen den No Verbatim-Modus ein – eine Transkriptionseinstellung, die Füllwörter wie „äh“ und „hm“ sowie Wiederholungen und Stottern automatisch entfernt.
Das Ergebnis ist ein sauberes, gut lesbares Transkript – ganz ohne manuelle Nachbearbeitung.
Der No Verbatim-Modus eignet sich besonders für Besprechungsnotizen, Untertitel und alle Workflows, bei denen ein klarer schriftlicher Bericht statt einer Rohfassung gewünscht ist.
Keyterm-Prompts unterstützen jetzt bis zu 1.000 Wörter und Begriffe pro Transkript – bisher lag das Limit bei 100.
Damit haben Teams mit großem technischem Vokabular, Produktkatalogen oder fachspezifischer Terminologie mehr Möglichkeiten, das Modell gezielt zu steuern.
Keyterm-Prompts bleiben kontextsensitiv. Das Modell nutzt das umgebende Audio, um zu entscheiden, ob ein Begriff passt – statt Begriffe blind einzufügen. Mit 1.000 Begriffen ist das die zehnfache Kapazität.
Hinweis: Anfragen mit mehr als 100 Keyterms haben eine minimale Abrechnungseinheit von 20 Sekunden.
Diese Funktionen stehen ab sofort in der Scribe v2 API und im UI zur Verfügung.
Lesen Sie die Dokumentation:
https://elevenlabs.io/docs/cookbooks/speech-to-text/quickstart
Jetzt in der App testen:
https://elevenlabs.io/app/speech-to-text
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)