Vad är Scribe v2 Realtime?

Scribe v2 Realtime är en strömmande Speech to Text-modell för direkttanskribering. Den har 150 ms fördröjning och 93,5 % noggrannhet på 30 språk – bättre än Gemini Flash 2.5, GPT-4o Mini Transcribe och Deepgram Nova 3 enligt FLEURS-benchmarken.

Hur skiljer sig Scribe v2 Realtime från Scribe v2?

Scribe v2 Realtime är optimerad för streaming med 150 ms fördröjning. Scribe v2 (batch) är för inspelat ljud och har fler funktioner som talaridentifiering, dynamisk ljudtaggning och stöd för 99 språk. Använd Realtime för agenter och live-appar; använd batch för efterbearbetning.

Hur noggrann är Scribe för transkribering i realtid?

Scribe v2 Realtime ger marknadsledande noggrannhet på 99 språk och är robust även vid svåra ljudförhållanden, olika dialekter och inspelningskvalitet. Den presterar bättre än tidigare modeller och andra ledande API:er i offentliga tester.

Vad är fördröjningen?

Ungefär 150 ms från början till slut, exklusive app- och nätverksfördröjning. Det är tre gånger snabbare än GPT-4o Mini Transcribe på 500 ms.

Vad är negativ fördröjning / prediktiv transkribering?

Scribe förutser nästa ord och skiljetecken innan de sägs. Det gör att transkriberingen kan slutföras utan att vänta på tystnad, vilket ger ett smidigare flöde i realtid.

Över 90 språk med automatisk språkigenkänning. Modellen hanterar språkskiften mitt i samtal utan att du behöver ändra inställningar.

Vilka ljudformat stöds?

PCM-ljud från 8 kHz till 48 kHz samplingsfrekvens och μ-law-kodning. Fungerar med telefoni, webbläsare och studiokällor.

Stöder Scribe v2 Realtime talaridentifiering?

Nej, inte just nu. För identifiering av flera talare, använd Scribe v2 (batch) som stöder upp till 48 talare.

Vad är gränsen för samtidiga strömmar?

Över 30 samtidiga strömmar med Business-abonnemang. Enterprise-abonnemang har högre gränser. Kontakta oss för större behov.

Finns Scribe v2 Realtime i ElevenLabs Agents?

Ja. Scribe v2 Realtime är integrerad i Agents-plattformen som standard.

Vilka certifieringar för regelefterlevnad finns?

SOC 2, ISO 27001, PCI DSS Level 1, HIPAA och GDPR. Zero retention-läge och EU/Indien-datahantering finns för Enterprise.

Realtids Speech to Text API

Transkribera tal live med Scribe v2 Realtime

Hämta API-nyckel Utforska dokumentation

Scribe v2 Realtime är den mest träffsäkra realtids-STT:n med 150 ms fördröjning och stöd för över 90 språk. Finns via API.

Demo

Kod

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Byggd för hastighet och noggrannhet

Hämta API-nyckel Utforska dokumentation

Blixtsnabb, extremt noggrann och byggd för live-tal. Scribe v2 Realtime ger omedelbar transkribering för realtidsbehov.

Realtids-transkribering med högsta noggrannhet

Scribe v2 Realtime når branschledande transkriberingsnoggrannhet med ~150 ms latens, även i utmanande ljudmiljöer eller med olika dialekter.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Utformad för alla situationer

Transkribering som fungerar även i bullriga miljöer, med bakgrundsmusik, starka dialekter och låg ljudkvalitet.

Tunnad för taligenkänning i realtid

Bygger vidare på Scribe v1 – Scribe v2 Realtime levererar ~150 ms latens med banbrytande noggrannhet oavsett dialekt, tonläge och miljö.

Utvecklad för Agents och röstappar

Scribe v2 Realtime är utvecklad för utvecklare som bygger konversationsagenter, mötesassistenter och röstapplikationer där snabbhet och noggrannhet är avgörande.

Kan jag få en återbetalning?

Självklart. Kan du dela ditt ordernummer, tack?

Det är EL4543490

Tack. Jag har påbörjat återbetalningsprocessen för ordern.

Återbetalning genomförd

Prediktiv transkribering för låg latens

Scribe v2 Realtime använder prediktiv transkribering för att förutse de mest sannolika orden och skiljetecknen – vilket ger exakt transkribering i realtid.

Scribe

makes

uses

is

has

new

Röstaktivitetsdetektering

Upptäcker när tal börjar och slutar, och delar upp ljudet exakt för smidig och effektiv transkribering i realtid.

Manuell commit-kontroll

Ger utvecklare kontroll över när transkriberingar ska slutföras – perfekt för anpassad streaming och finjusterad noggrannhet.

Flera ljudformat

Stöder PCM (8–48 kHz) och μ-law-kodning för kompatibilitet med telefoni, webbläsare och studio.

Modeller optimerade för alla användningsområden

Scribe v2 för stora volymer och Scribe v2 Realtime för användning med låg fördröjning

Scribe v2

Högsta noggrannhet, anpassad för batch-arbeten.

>95 % noggrannhet
Över 90 språk
Upptäckt av icke-talhändelser
Entitetsigenkänning
Nyckelordsstyrning

Läs mer

Scribe v2 Realtime

Lägst fördröjning, för realtidsanvändning.

Under 150 ms fördröjning
Över 90 språk
Strömmande transkribering
Röstaktivitetsdetektering
Automatisk språkigenkänning

Läs mer

Transkribera tal på över 90 språk och många olika dialekter

Ger högsta noggrannhet oavsett dialekt, accent och inspelningsmiljö.

Ändra languageCode för att förhandsgranska språk

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Välj språk

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Engelska

Kinesiska

Spanska

Franska

Portugisiska

Tyska

Japanska

Italienska

Hindi

EngelskaKlicka för att förhandsgranska

Vi driver världsledande företag och varumärken

Se kundberättelser

“Från att dubba Reels på lokala språk till att skapa musik och karaktärsröster i Horizon – ElevenLabs gör det möjligt för kreatörer, företag och organisationer världen över att arbeta med röst, musik och ljud i stor skala.”
“Scribes oslagbara noggrannhet på så många språk gör att Fieldy förstår varje samtal och enkelt kan växa globalt. Fieldy har ökat användarretentionen med 50 % efter att ha bytt till ElevenLabs Scribe.”
“ElevenLabs gjorde det enkelt för oss att snabbt lägga till kraftfull text-till-tal-funktion i vårt SDK, så att agenter kan svara direkt med uttrycksfulla röster på användarfrågor eller ge feedback på vad de ser.”
“Twilio har integrerat ElevenLabs generativa AI-röstteknik i sin CPaaS och förbättrat ConversationRelay. Det gör att företag och utvecklare kan skapa samtalsbaserade AI-röstinteraktioner som låter mänskliga, känns uttrycksfulla och svarar direkt – direkt från Twilios CPaaS-plattform. Vi på ElevenLabs är glada att Twilio valt oss för att göra ConversationRelay ännu mer uttrycksfullt och mänskligt.”

API:er byggda för produktion

Flexibel prissättning utifrån dina behov

Upplev marknadsledande noggrannhet och snabbhet med priser som passar allt från startups till stora företag.

$0,28 per timme och lägre

med årliga Business-abonnemang

Utforska dokumentation

Vanliga frågor

Senaste nytt

Alla uppdateringar

Realtids Speech to Text API

Transkribera tal live med Scribe v2 Realtime

Byggd för hastighet och noggrannhet