Gå till innehåll

Speech to Text API

Transkribera tal med ElevenLabs Scribe v2

Marknadens mest träffsäkra Speech to Text för stora volymer. Upptäck betoning och ljudeffekter, och styr transkriberingen med nyckelord.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

Mest träffsäkra Speech to Text API för batchjobb

Skapa undertexter, textremsor och redigerbara transkriptioner för poddar, videor, intervjuer och annat inspelat material – allt med branschledande noggrannhet via API.

Scribe v2 ger branschledande transkriptionsnoggrannhet och levererar ren, redigerbar text även vid svåra ljudförhållanden eller olika dialekter.

Oöverträffad transkriptionsnoggrannhet

Scribe v2 ger branschledande transkriptionsnoggrannhet och levererar ren, redigerbar text även vid svåra ljudförhållanden eller olika dialekter.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Utformad för alla situationer

Transkribering som fungerar även i bullriga miljöer, med bakgrundsmusik, starka dialekter och låg ljudkvalitet.

Detaljerad kontroll över timing, talare och icke-talshändelser.

ElevenLabs Transcription API kan upptäcka skratt, känslor och ljudeffekter. Använd nyckelord för att styra transkriberingen med branschspecifika termer.

Transkribera ljud och video

Ladda upp MP3, MP4, WAV, MOV och andra vanliga format. Scribe hanterar filer upp till 10 timmar med asynkron bearbetning och webhook-notiser för stora batcher.
Transcription Formats

Rena, redigerbara transkriptioner

Få korrekt punktuerad text med styckeindelning, redo för redigering, publicering eller vidare bearbetning. Ingen efterbearbetning krävs.
Editable transcripts

Nyckelordspromptning

Förbättra igenkänningen för upp till 100 branschspecifika termer. Produktnamn, tekniska uttryck och specialiserat ordförråd transkriberas rätt direkt.
Keyterm Prompting

Dynamisk ljudtaggning

Fånga upp icke-talshändelser som skratt, applåder, musik och bakgrundsljud. Transkriptionerna innehåller hela ljudets kontext, inte bara orden.

Smart talaridentifiering

Identifiera och märk automatiskt upp till 48 talare. Tydlig uppdelning av vem som säger vad, organiserat i lättlästa transkriptioner.

Enhetsigenkänning

Identifiera och tagga automatiskt 56 olika enhetstyper, som namn, datum, platser och organisationer i dina transkriptioner.

Black Mountain

Scribe v2

Högsta noggrannhet, anpassad för batchjobb.

  • >95% Noggrannhet
  • 90+ Språk
  • Icke-talshändelser
  • Enhetsigenkänning
  • Nyckelordspromptning
Mountains

Scribe v2 i realtid

Lägst fördröjning, för realtidsjobb.

  • Under 150 ms fördröjning
  • 90+ Språk
  • Transkriptionsströmning
  • Röstaktivitetsdetektion
  • Automatisk språkkänning

Transkribera tal på över 90 språk och många olika dialekter

Ger högsta noggrannhet oavsett dialekt, accent eller inspelningskvalitet.

Ändra languageCode för att förhandsgranska språk

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Välj språk diarize: true }); console.log(transcription);
Flag for en
Engelska
Flag for zh
Kinesiska
Flag for es
Spanska
Flag for fr
Franska
Flag for pt
Portugisiska
Flag for de
Tyska
Flag for ja
Japanska
Flag for it
Italienska
Flag for hi
Hindi
Flag for en
EngelskaKlicka för att förhandsgranska

Används av världsledande företag och varumärken

  • Från att dubba Reels på lokala språk till att skapa musik och karaktärsröster i Horizon – ElevenLabs plattform gör det möjligt för kreatörer, företag och organisationer världen över att arbeta med röst, musik och ljud i stor skala.
    Meta Color Logo
  • Scribes oslagbara noggrannhet på så många språk gör att Fieldy kan förstå varje samtal och enkelt växa över hela världen. Fieldy har ökat användarretentionen med 50% efter att ha gått över till ElevenLabs Scribe.
    Fieldy logo
  • ElevenLabs gjorde det enkelt för oss att snabbt lägga till kraftfull Text to Speech i vårt SDK, så att agenter kan svara i realtid med uttrycksfulla röster på användarfrågor eller ge feedback på vad de ser.
    Stream Color Logo
  • Twilio har integrerat ElevenLabs generativa AI-röstteknik i sin CPaaS och förbättrat ConversationRelay. Den här integrationen gör det möjligt för företag och utvecklare att skapa konversations-AI med röster som låter mänskliga, känns uttrycksfulla och svarar i realtid direkt från Twilios CPaaS-plattform. Vi på ElevenLabs är glada att Twilio valt oss för att göra ConversationRelay ännu mer uttrycksfullt och mänskligt.
    Twilio logo

API:er byggda för produktion

Foreground

Vanliga frågor

Senaste nytt

Den mest realistiska AI-ljudplattformen