Möt Scribe

Skriven av: Tim von Känel; Flavio Schneider
Publicerad: 26 feb. 2025

LyssnaLyssna på den här artikeln

0:00

0:000:00

Scribe, vår första Tal till text modellen är världens mest exakta transkriptionsmodell. Byggd för att hantera oförutsägbarheten i verklig ljud, transkriberar Scribe tal på 99 språk, med tidsstämplar på ordnivå, talardiarisering och ljudhändelse-tagging - allt levererat i ett strukturerat svar för sömlös integration.

Scribe är konstruerad för precision. I FLEURS och Common Voice-benchmarktester över 99 språk presterar den konsekvent bättre än ledande modeller som Gemini 2.0 Flash, Whisper Large V3 och Deepgram Nova-3. Oavsett om det handlar om mötes sammanfattningar, filmundertexter eller till och med låttexter, levererar Scribe den lägsta automatiserade transkriptionens felaktighetsgrad i italienska (98,7 %), engelska (96,7 %) och 97 andra språk.

Scribe gör ASR universellt tillgängligt - vilket dramatiskt minskar felen i traditionellt underbetjänade språk som serbiska, kantonesiska och malayalam, där konkurrerande modeller ofta överstiger 40 % felaktiga ord.

The world's most accurate ASR model by IIElevenLabs.

Utvecklare kan integrera Scribe idag via vår Tal till text API att få strukturerade JSON-transkript med talardiarisering och tidsstämplar på ordnivå & icke-talshändelsemarkörer (t.ex. skratt). En låg-latensversion för realtidsapplikationer kommer snart att släppas.

Skapare och företag kan använda Scribe direkt via ElevenLabs instrumentpanel att ladda upp ljud- eller videofiler och generera formaterade transkriptioner.

Börja bygga med Scribe:

API-dokumentation $ Försök i ElevenLabs-instrumentpanelen

Bänkar

BLOMMAR - Ord fel hastighet % - 102 språk

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Ord fel hastighet % - 102 språk

Bar chart comparing word error rates for different voice recognition models across various countries.

Bidrag

Forskningsledare, utbildning, arkitektur

Flavio Schneider

Projektledare, förträningsdata, finjusteringsdata

Tim von Känel

Slutsats, Optimeringar

Maximiliano Levi

Forskningsbidragsgiv

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Dataförvärv

Alex George

Möt Scribe

Bänkar

BLOMMAR - Ord fel hastighet % - 102 språk

Common Voice - Ord fel hastighet % - 102 språk

Bidrag

Liknande artiklar

Möt Flash

Nu lanserar vi Conversational AI Agents

ElevenLabs lämnar betaversionen och lanserar Eleven Multilingual v2 - en AI-baserad talmodell för 30 språk

Vi presenterar Eleven Multilingual v1: Vår nya talsyntesmodell