Czym jest ElevenLabs Bulk Transcription API?

Bulk Transcription API to część Scribe, naszego systemu Speech to Text do masowej transkrypcji audio i wideo. Pozwala deweloperom i firmom przetwarzać godziny nagrań z najwyższą dokładnością w 99 językach.

Jakie pliki audio i wideo mogę wgrać?

Scribe obsługuje wszystkie popularne formaty, w tym MP4, MOV, MP3, WAV i inne.

Jak dokładny jest Scribe przy masowej transkrypcji?

Scribe v2 osiąga najlepszą dokładność w 99 językach i radzi sobie nawet w trudnych warunkach audio, z akcentami i różną jakością nagrań. Przewyższa starsze modele i inne API w publicznych testach.

Ile trwa transkrypcja dużych plików?

Czas przetwarzania zależy od długości pliku i liczby równoległych zadań. Scribe jest zoptymalizowany pod kątem wydajności i obsługuje duże ilości danych, dostarczając transkrypcje w kilka sekund lub minut.

Czy Scribe rozdziela mówców i dodaje znaczniki czasu?

Tak. API oferuje inteligentne rozpoznawanie mówców, znaczniki czasu na poziomie słów i znaków oraz dynamiczne tagowanie zdarzeń pozamownych, jak śmiech czy muzyka.

Czy mogę dostosować model do branżowych terminów?

Tak. Możesz ustawić własne słowniki, by poprawnie transkrybować nazwy produktów, techniczne terminy czy unikalne zwroty marki dzięki podpowiedziom słów kluczowych.

Czy Bulk Transcription API jest bezpieczne i zgodne z przepisami?

Scribe spełnia wymagania SOC 2, RODO i opcjonalnie HIPAA. Dane są szyfrowane w trakcie przesyłania i przechowywania, a zespoły mogą włączyć przechowywanie danych w UE lub tryb Zero Retention dla większej kontroli.

Jak jest wyceniane Bulk Transcription API?

Opłaty zależą od liczby minut przetwarzanego audio. Przy dużych wolumenach dostępne są zniżki i plany dla firm. Napisz do naszego zespołu sprzedaży, by omówić szczegóły.

Możesz zacząć od razu – wygeneruj klucz API i sprawdź dokumentację.

Speech to Text API

Transkrybuj mowę z ElevenLabs Scribe v2

Pobierz klucz API Przeglądaj dokumentację

Najdokładniejsze STT do dużych projektów. Wykrywa akcenty i efekty dźwiękowe, pozwala kierować transkrypcją za pomocą słów kluczowych.

Demo

Kod

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Najdokładniejsze Speech to Text API do dużych zadań

Pobierz klucz API Przeglądaj dokumentację

Twórz napisy, transkrypcje do podcastów, wideo, wywiadów i innych nagrań – wszystko z najwyższą dokładnością przez API.

Bezkonkurencyjna dokładność transkrypcji

Scribe v2 zapewnia najwyższą dokładność transkrypcji, dając czysty, edytowalny tekst nawet w trudnych warunkach audio i przy różnych akcentach.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Stworzone na każdą sytuację

Transkrypcja działa nawet w hałasie, z muzyką w tle, silnym akcentem czy słabej jakości dźwiękiem.

Precyzyjna kontrola nad czasem, mówcami i zdarzeniami bez mowy.

Transcription API od ElevenLabs wykrywa śmiech, emocje i efekty dźwiękowe. Użyj podpowiedzi z kluczowymi terminami, by lepiej rozpoznać branżowe słownictwo.

Transkrybuj audio i wideo

Wgraj pliki MP3, MP4, WAV, MOV i inne popularne formaty. Scribe obsługuje pliki do 10 godzin, przetwarza je asynchronicznie i wysyła powiadomienia webhook przy dużych partiach.

Czyste, edytowalne transkrypcje

Otrzymujesz poprawnie zapisany tekst z interpunkcją i podziałem na akapity, gotowy do edycji, publikacji lub dalszego użycia. Nie musisz nic poprawiać.

Podpowiedzi z kluczowymi terminami

Zwiększ dokładność rozpoznawania do 100 branżowych terminów. Nazwy produktów, techniczne zwroty i specjalistyczne słownictwo zapisane poprawnie już za pierwszym razem.

Dynamiczne tagowanie dźwięku

Wychwytuj zdarzenia bez mowy, jak śmiech, oklaski, muzyka czy szumy w tle. Transkrypcje pokazują pełny kontekst nagrania, nie tylko słowa.

Inteligentne rozpoznawanie mówców

Automatycznie rozpoznaj i oznacz do 48 mówców. Jasne przypisanie, kto co powiedział, w czytelnych transkrypcjach.

Wykrywanie encji

Automatycznie wykrywaj i oznaczaj 56 typów encji, w tym imiona, daty, miejsca i organizacje w twoich transkrypcjach.

Scribe v2

Najwyższa dokładność, idealny do pracy z dużymi plikami.

>95% dokładności
90+ języków
Wykrywanie zdarzeń bez mowy
Wykrywanie encji
Podpowiedzi z kluczowymi terminami

Dowiedz się więcej

Scribe v2 Realtime

Najniższe opóźnienie, do pracy na żywo.

Opóźnienie poniżej 150 ms
90+ języków
Transkrypcja na żywo
Wykrywanie aktywności głosu
Automatyczne rozpoznawanie języka

Dowiedz się więcej

Transkrybuj mowę w ponad 90 językach i różnych akcentach

Wyjątkowa dokładność niezależnie od akcentu, dialektu czy jakości nagrania.

Zmień languageCode, żeby sprawdzić inne języki

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // Ustaw język
	  diarize: true
	});

console.log(transcription);

Angielski

Chiński

Hiszpański

Francuski

Portugalski

Niemiecki

Japoński

Włoski

Hindi

AngielskiKliknij, aby zobaczyć podgląd

Zasilamy największe firmy i marki na świecie

Zobacz historie klientów

“Od dubbingu Reels w lokalnych językach po generowanie muzyki i głosów postaci w Horizon – ElevenLabs pozwala twórcom, firmom i organizacjom działać globalnie z głosem, muzyką i dźwiękiem na dużą skalę.”
“Bezkonkurencyjna dokładność Scribe w tylu językach pozwala Fieldy rozumieć każdą rozmowę i łatwo rozwijać się na nowe rynki. Po przejściu na ElevenLabs Scribe Fieldy zwiększył retencję użytkowników o 50%.”
“Dzięki ElevenLabs szybko dodaliśmy zaawansowaną zamianę tekstu na mowę do naszego SDK. Agenci mogą odpowiadać w czasie rzeczywistym wyrazistym głosem na pytania użytkowników lub reagować na to, co widzą.”
“Twilio zintegrowało technologię generowania głosu AI od ElevenLabs z CPaaS, ulepszając ConversationRelay. Dzięki temu firmy i deweloperzy mogą tworzyć rozmowy głosowe AI, które brzmią naturalnie, są wyraziste i reagują w czasie rzeczywistym bezpośrednio z platformy Twilio CPaaS. Cieszymy się, że Twilio wybrało ElevenLabs, by ConversationRelay miało najbardziej naturalne, ludzkie głosy.”

API gotowe do produkcji

Najczęściej zadawane pytania

Najnowsze aktualizacje

Wszystkie aktualizacje

Speech to Text API

Transkrybuj mowę z ElevenLabs Scribe v2