Gå till innehåll

Realtids Speech to Text API

Transkribera tal live med Scribe v2 Realtime

Scribe v2 Realtime är den mest exakta realtidsmodellen för transkribering med 150 ms latens på över 90 språk. Tillgänglig via API.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Byggd för hastighet och noggrannhet

Blixtsnabb, extremt noggrann och byggd för live-tal. Scribe v2 Realtime ger omedelbar transkribering för realtidsbehov.

Scribe v2 Realtime når branschledande transkriberingsnoggrannhet med ~150 ms latens, även i utmanande ljudmiljöer eller med olika dialekter.

Realtids-transkribering med högsta noggrannhet

Scribe v2 Realtime når branschledande transkriberingsnoggrannhet med ~150 ms latens, även i utmanande ljudmiljöer eller med olika dialekter.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Utformad för alla situationer

Transkribering som fungerar även i bullriga miljöer, med bakgrundsmusik, starka dialekter och låg ljudkvalitet.

Tunnad för taligenkänning i realtid

Bygger vidare på Scribe v1 – Scribe v2 Realtime levererar ~150 ms latens med banbrytande noggrannhet oavsett dialekt, tonläge och miljö.

Kan jag få en återbetalning?
Självklart. Kan du dela ditt ordernummer, tack?
Det är EL4543490
Tack. Jag har påbörjat återbetalningsprocessen för ordern.
Återbetalning genomförd

Utvecklad för Agents och röstappar

Scribe v2 Realtime är utvecklad för utvecklare som bygger konversationsagenter, mötesassistenter och röstapplikationer där snabbhet och noggrannhet är avgörande.

Scribe
makes
uses
is
has
new

Prediktiv transkribering för låg latens

Scribe v2 Realtime använder prediktiv transkribering för att förutse de mest sannolika orden och skiljetecknen – vilket ger exakt transkribering i realtid.

Röstaktivitetsdetektering

Upptäcker när tal börjar och slutar, och delar upp ljudet exakt för smidig och effektiv transkribering i realtid.

Manuell commit-kontroll

Ger utvecklare kontroll över när transkriberingar ska slutföras – perfekt för anpassad streaming och finjusterad noggrannhet.

Flera ljudformat

Stöder PCM (8–48 kHz) och μ-law-kodning för kompatibilitet med telefoni, webbläsare och studio.

Modeller optimerade för alla användningsområden

Scribe v2 för stora volymer och Scribe v2 Realtime för användning med låg fördröjning

Black Mountain

Scribe v2

Högsta noggrannhet, anpassad för batch-arbeten.

  • >95 % noggrannhet
  • Över 90 språk
  • Upptäckt av icke-talhändelser
  • Entitetsigenkänning
  • Nyckelordsstyrning
Mountains

Scribe v2 Realtime

Lägst fördröjning, för realtidsanvändning.

  • Under 150 ms fördröjning
  • Över 90 språk
  • Strömmande transkribering
  • Röstaktivitetsdetektering
  • Automatisk språkigenkänning

Transkribera tal på över 90 språk och många olika dialekter

Ger högsta noggrannhet oavsett dialekt, accent och inspelningsmiljö.

Ändra languageCode för att förhandsgranska språk

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Välj språk onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
Engelska
Flag for zh
Kinesiska
Flag for es
Spanska
Flag for fr
Franska
Flag for pt
Portugisiska
Flag for de
Tyska
Flag for ja
Japanska
Flag for it
Italienska
Flag for hi
Hindi
Flag for en
EngelskaKlicka för att förhandsgranska

Vi driver världsledande företag och varumärken

  • Från att dubba Reels på lokala språk till att skapa musik och karaktärsröster i Horizon – ElevenLabs gör det möjligt för kreatörer, företag och organisationer världen över att arbeta med röst, musik och ljud i stor skala.
    Meta Color Logo
  • Scribes oslagbara noggrannhet på så många språk gör att Fieldy förstår varje samtal och enkelt kan växa globalt. Fieldy har ökat användarretentionen med 50 % efter att ha bytt till ElevenLabs Scribe.
    Fieldy logo
  • ElevenLabs gjorde det enkelt för oss att snabbt lägga till kraftfull text-till-tal-funktion i vårt SDK, så att agenter kan svara direkt med uttrycksfulla röster på användarfrågor eller ge feedback på vad de ser.
    Stream Color Logo
  • Twilio har integrerat ElevenLabs generativa AI-röstteknik i sin CPaaS och förbättrat ConversationRelay. Det gör att företag och utvecklare kan skapa samtalsbaserade AI-röstinteraktioner som låter mänskliga, känns uttrycksfulla och svarar direkt – direkt från Twilios CPaaS-plattform. Vi på ElevenLabs är glada att Twilio valt oss för att göra ConversationRelay ännu mer uttrycksfullt och mänskligt.
    Twilio logo

API:er byggda för produktion

Foreground

Flexibel prissättning utifrån dina behov

Upplev marknadsledande noggrannhet och snabbhet med priser som passar allt från startups till stora företag.

$0,28 per timme och lägre

med årliga Business-abonnemang

UI Screenshot

Vanliga frågor

Senaste nytt

Den mest realistiska AI-ljudplattformen