Jämförelse mellan Scribe och OpenAI:s 4o Speech to Text-modell

En månad efter lanseringen fortsätter Scribe att bevisa att det är den mest avancerade speech to text-modellen i branschen.

På bara en månad sedan lanseringen har vår speech to text-modell Scribe lockat tusentals företag med sin branschledande noggrannhet. Från medietexter till callcenter och medicinska transkriptioner har Scribe snabbt blivit valet för utvecklare.

Branschledande prestanda

Flera tredjepartsanalyser bekräftade våra egna noggrannhetsmätningar där Scribe överträffar alla modeller, inklusive de nya 4o-transkriptionsmodellerna från OpenAI. Till exempel visar en mätning från Artificial Analysis att Scribe överträffar både 4o och 4o mini-transkript på Word Error Rate, i genomsnitt:

  • 4o transcribe gör 16% fler fel än Scribe
  • 4o mini transcribe gör 71% fler fel än Scribe

INFOGA DIAGRAM

Scribe överträffar också eller är i nivå med 4o & 4o mini-transkriptionsmodeller i OpenAI:s egna lanseringsmätningar, för 11 av de 15 språk de testade. Tittar man på japanska och hindi till exempel, är Scribe bättre än båda OpenAI:s 4o-modeller med betydande marginaler, i OpenAI:s egna mätningar:

  • Japanska ser att OpenAI:s 4o speech to text-modell gör 55% fler fel än Scribe, och 105% fler fel för deras 4o mini-modell
    • OpenAI:s 4o speech to text-modell gör 55% fler fel än Scribe
    • Deras 4o mini-modell gör 105% fler fel än Scribe
  • Hindi:
    • OpenAI:s 4o speech to text-modell gör 18% fler fel än Scribe
    • Deras 4o mini-modell gör 37% fler fel än Scribe

Vi har tagit beslut med Scribe för att vara så användbar som möjligt för kunder, även om det kan skapa inkonsekvenser i branschmätningar. Till exempel:

  1. Scribe fångar upp siffror som “ett” “två” “tre” vilket är mer användbart för transkriptioner, men FLEURS-mätningen använder de faktiska siffrorna “1”, “2”, “3”, vilket skapar fel
  2. Scribe kan upptäcka ord som “hmm” “ha” “hej”, en annan användbar funktion för kunder att få mer kontext, men dessa ord ingår inte i mätningarna, vilket återigen skapar konstgjorda fel

Det är därför det är bra att titta på slutresultaten när man tänker på prestanda. Till exempel, på engelska har OpenAI:s 4o Speech to Text-modell en liknande prestanda som Scribe i mätningar. Men att jämföra engelska transkriptioner sätter verkligen fokus på Scribs avancerade kapaciteter. I nedanstående analys av sportkommentatorer gör Scribe inga misstag och fångar korrekt betydelserna.House of Dragons trailer från HBO, gör Scribe inga misstag, fångar upp ljudeffekter och märker dem korrekt, vilket skapar en uppslukande transkription.

Journalister kommenterar minnesvärda spel av Messi

 / 

ElevenLabs’s Scribe

Messi är här! Det är vad de kom för. Messi. Messi! Vad? Skämtar du med mig? Ett konstverk. Den här mannen är helt och hållet ren fotbollsmagi. Alba inuti. Det är Messi! Åh, nej! Nej! Igen, medicinmannen anländer och sänker sitt flammande spjut.

OpenAI:s 4o

Messis kaos! Det är vad de kom för! Messi! Skämtar du med mig?! Den här mannen är helt galen, som den rena fotbollsmagin! Alba inuti, det är Messi! Igen! Medicinmannen anländer och

Brittisk parlamentsförhörbrittiska parlamentsförhör Folket i King's Landing lyssnar. De är hungriga. Vår gåva är skickad. Ge det till mig! Era Nåder, vi måste gå. Låt oss gå.

Lösningar för företag

Med varje framsteg inom AI, finns det en ofta förbisedd grupp som kan dra stor nytta: personer som stammar. Stamning, en genetisk talstörning som påverkar ~1% av befolkningen, utgör unika utmaningar för automatiska taligenkänningssystem (ASR). I en studie med testprover där stamning förekom i nästan vart fjärde ord, är Scribs prestanda särskilt imponerande med 98,7% noggrannhet i genomsnitt. Detta bevisar återigen att Scribe leder branschen och erbjuder en modell anpassad för alla företagsbehov. (Tid för att skapa transkriptionen: 4,66s)Hör, hör. (publikens mummel) Jag är ledsen, det måste ha något att göra med min antipodiska bakgrund. Kan han vänligen upprepa frågan, för jag följde inte med?(publikens skratt) Wow. Åh, wow. Väldigt populär idag. Um, jag- jag sa att- att ett antal av parlamentariska kollegor som har funktionsnedsättningar tycker det är ganska svårt att ta sig runt vissa delar av området. Med tanke på att vi gör detta renoveringsarbete, vad kan göras för att säkerställa att de med funktionsnedsättning kan röra sig mer fritt och platsen är tillgänglig?Herr Paul. (publikens skratt) Jag är verkligen ledsen. Kan han göra det mycket långsamt på antipodisk engelska? Tack. Ge bara vilket gammalt svar som helst. Jag- jag tror att svaret... Jag tror att svaret kan hjälpas om du kan svara skriftligtnär du läser, herr talman. Rätt, Chris Elmore. (skrattar) Tack, herr vice talman, jag- jag ska försöka det på första försöket.(publikens mummel) Åh, nej. Du är walesisk. Kan jag- kan jag- kan jag- för jag är walesisk, så Gud hjälpe honom.

Kan jag fråga den ärade herren

Kom igång idag (Tid för att skapa transkriptionen: 5,01 sekunder)Förlåt, det måste ha något att göra med min antipodiska bakgrund. Kan han vänligen upprepa frågan, för jag följde inte med?Nåväl, väldigt populär idag. Jag ser att ett antal av parlamentariska kollegor som har funktionsnedsättningar tycker det är ganska svårt att ta sig runt vissa delar av området. Med tanke på att vi gör detta renoveringsarbete, vad kan göras för att säkerställa att de med funktionsnedsättning kan röra sig mer fritt och platsen är tillgänglig?Jag är verkligen ledsen. Kan du göra det mycket långsamt på antipodisk engelska?Jag tror att svaret kan hjälpas om du kan svara skriftligtnär du läser det. Tack, herr vice talman. Jag ska försöka på första försöket. Eftersom jag är walesisk, så Gud hjälpe honom.

Kan jag fråga den ärade herrn

Kan jag fråga den ärade herren

  • Exakta tidsstämplar på världsnivå ger enormt värde för skapare, media och underhållning, och förvandlar dina transkriptioner till undertexter, sökbara poster och exakta översättningar
  • Smart Speaker-diarisering låter dig sammanfatta möten, säljpresentationer eller kundsupport-samtal för att få de mest exakta och handlingsbara insikterna och öka samarbetet och utbildningen inom ditt team
  • Dynamisk ljudtaggning ger dig mer innehåll och kontext från ditt ljudinmatning för att möjliggöra exempelvis sentimentanalys
  • Stöd för 99 språk, nå enkelt världen med en enda integration
  • Alla dessa funktioner finns i vårt API, vilket låter utvecklare bygga utan kompromisser
  • En realtidsströmmande version av Scribe, tillsammans med en låg latens-version, planeras också för de kommande veckorna. Detta kommer att befästa Scribe som den mest avancerade Speech to Text-modellen någonsin skapad, som täcker alla dina affärsbehov och ger dig mer valfrihet och flexibilitet mellan hastighet, pris och noggrannhet.

Lösningar för företag

Scribes prestanda kommer till liv med sin funktionsuppsättning anpassad för att lösa behoven hos företagskunder.kontakta vårt säljteam, vi hjälper gärna till att ordna en demo och visa hur vi kan hjälpa ditt företag.

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in