Gå till innehåll

Jämförelse mellan Scribe och OpenAI:s 4o Speech to Text-modell

En månad efter lanseringen fortsätter Scribe att visa att det är den mest avancerade speech to text-modellen på marknaden.

Introducing iScribe v1, the world's most accurate speech-to-text model.

På bara en månad sedan lanseringen har vår speech to text-modell Scribe lockat tusentals företag tack vare sin marknadsledande noggrannhet. Från mediatexter till callcenter och medicinska transkriberingar har Scribe snabbt blivit förstahandsvalet för utvecklare.

Marknadsledande prestanda

Flera oberoende analyser har bekräftat våra egna noggrannhetsmätningar där Scribe presterar bättre än alla andra modeller, inklusive de nya 4o transcribe-modellerna från OpenAI. Till exempel visar en benchmark från Artificial Analysis att Scribe slår både 4o och 4o mini transcript när det gäller Word Error Rate, i genomsnitt:

  • 4o transcribe gör 16 % fler fel än Scribe
  • 4o mini transcribe gör 71 % fler fel än Scribe
Third party speech to text benchmark from Artificial Analysis
Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribe presterar också bättre eller lika bra som 4o & 4o mini-transkriptionsmodellerna i OpenAI:s egna benchmark, för 11 av de 15 språk de testade. Om vi tittar på japanska och hindi till exempel, är Scribe tydligt bättre än båda OpenAI:s 4o-modeller enligt deras egna tester:

  • För japanska gör OpenAI:s 4o speech to text-modell 55 % fler fel än Scribe, och 105 % fler fel med deras 4o mini-modell
  • För hindi gör OpenAI:s 4o speech to text-modell 18 % fler fel än Scribe, och 37 % fler fel med deras 4o mini-modell

Vi har gjort val med Scribe för att vara så användbar som möjligt för kunder, även om det kan skapa skillnader i branschens benchmark. Till exempel:

  1. Scribe skriver ut siffror som “ett” “två” “tre” vilket är mer användbart i transkriberingar, men FLEURS-benchmarken använder siffrorna “1”, “2”, “3”, vilket ger fel
  2. Scribe kan känna igen ord som “eh” “hm” “hej”, vilket ger mer kontext för kunder, men dessa ord ingår inte i benchmarken och ger därför konstgjorda fel

Därför är det bra att titta på slutresultatet när man utvärderar prestanda. Till exempel har OpenAI:s 4o Speech to Text-modell liknande resultat som Scribe i benchmark för engelska. Men när man jämför engelska transkriptioner märks Scribes avancerade funktioner tydligt.

Jämförelse av transkriptioner

I den här transkriptionsanalysen av en parlamentsförhandling i Storbritannien ser du hur Scribe inte gör några misstag och fångar accenter, olika röstlägen och märker ut bakgrundsljud och skratt korrekt.

ElevenLabs Scribe (Tid för att skapa transkriptionen: 4,66 s)

Kan jag fråga den ärade herrn vilket arbete som görs för att göra den här platsen mer tillgänglig, särskilt för några av våra kollegor med funktionsnedsättning?Hör, hör. (publiken mumlar)Jag är ledsen, det måste bero på min antipodiska bakgrund. Kan han upprepa frågan, för jag hängde inte med?(publiken skrattar) Oj. Oj, oj. Väldigt populär idag. Eh, jag- jag sa att- att flera av parlamentskollegorna med funktionsnedsättning har svårt att ta sig runt på vissa delar av området. Eftersom vi gör det här renoveringsarbetet, vad kan göras för att de med funktionsnedsättning ska kunna röra sig friare och platsen bli mer tillgänglig?Herr Paul. (publiken skrattar) Jag är verkligen ledsen.Kan han göra det väldigt långsamt på antipodisk engelska?Tack. Säg vad som helst. Jag tror svaret... Jag tror svaret kan bli tydligareom du kan svara skriftligtnär du läser, herr talman. Okej, Chris Elmore. (skrattar)Tack, herr vice talman, jag ska försöka direkt.(publiken mumlar) Åh nej. Du är walesare. Kan jag- kan jag- kan jag- för jag är walesare, så Gud hjälpe honom.

OpenAI:s 4o (Tid för att skapa transkriptionen: 5,01 s)

Kan jag fråga den ärade herrn vilket arbete som görs för att säkerställa att den här platsen är mer tillgänglig, särskilt för några av våra kollegor med funktionsnedsättning?Förlåt, det måste bero på min antipodiska bakgrund. Kan han upprepa frågan, för jag hängde inte med?Väldigt populär idag. Jag ser att flera av parlamentskollegorna med funktionsnedsättning har svårt att ta sig runt på vissa delar av området. Eftersom vi gör det här renoveringsarbetet, vad kan göras för att de med funktionsnedsättning ska kunna röra sig friare och platsen bli mer tillgänglig?Jag är verkligen ledsen.Kan du göra det väldigt långsamt på antipodisk engelska?Jag tror svaret kan bli tydligareom du kan svara skriftligtnär du läser det.Tack, herr vice talman. Jag ska försöka direkt.Eftersom jag är walesare, så Gud hjälpe honom.

Tillgänglighet med transkribering av stamning

Med varje framsteg inom AI får en ofta förbisedd grupp stora fördelar: personer som stammar. Stamning, en genetisk talstörning som påverkar cirka 1 % av befolkningen, innebär särskilda utmaningar för automatiska taligenkänningssystem (ASR). I en studie med testsamplingar där stamning förekom i nästan vart fjärde ord, presterade Scribe särskilt bra med i snitt 98,7 % noggrannhet. Det visar återigen att Scribe leder branschen och erbjuder en modell som passar alla företagsbehov.

Lösningar för företag

Scribes prestanda märks verkligen tack vare funktionerna som är anpassade för företagskunder.

  • Exakta tidsstämplar på ordnivå ger enorma möjligheter för kreatörer, media och underhållning – gör dina transkriptioner till undertexter, sökbara poster och exakta översättningar.
  • Smart talaridentifiering gör det enkelt att sammanfatta möten, säljpitchar eller kundsamtal för att få de mest precisa och användbara insikterna och förbättra samarbetet och utbildningen i teamet.
  • Dynamisk ljudtaggning ger dig mer innehåll och kontext från ditt ljud, till exempel för att möjliggöra sentimentanalys.
  • Stöd för 99 språk – nå ut globalt med en enda integration
  • Alla dessa funktioner finns i vårt API, så utvecklare kan bygga utan kompromisser
  • En realtidsstreaming-version av Scribe, tillsammans med en låg-latens-version, planeras också inom de närmaste veckorna. Det kommer att göra Scribe till den mest avancerade Speech to Text-modellen hittills, så att du kan täcka alla dina affärsbehov och välja mellan snabbhet, pris och noggrannhet.

Kom igång idag

Prova Scribe idag, vår webbprodukt är gratis till och med 9 april. Scribe har mycket konkurrenskraftiga priser, från $0,22/timme för företagskunder. Hör gärna av dig till vårt säljteam, vi visar gärna en demo och berättar hur vi kan hjälpa ditt företag.

Utforska artiklar av ElevenLabs-teamet

Company
Audi Revolut F1 Team Headset w/ ElevenLabs Logo

We are on the grid

ElevenLabs is an official partner of Audi Revolut F1 Team

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in