Czym jest Scribe v2 Realtime?

Scribe v2 Realtime to model Speech to Text do transkrypcji na żywo. Oferuje opóźnienie 150 ms i 93,5% dokładności w 30 językach – lepszy wynik niż Gemini Flash 2.5, GPT-4o Mini Transcribe i Deepgram Nova 3 w teście FLEURS.

Czym różni się Scribe v2 Realtime od Scribe v2?

Scribe v2 Realtime jest zoptymalizowany do streamingu z opóźnieniem 150 ms. Scribe v2 (batch) służy do nagranych plików audio i ma dodatkowe funkcje, jak rozpoznawanie mówców, dynamiczne tagowanie i obsługę 99 języków. Realtime sprawdzi się w agentach i aplikacjach na żywo, batch – do obróbki nagrań.

Jak dokładny jest Scribe przy transkrypcji na żywo?

Scribe v2 Realtime zapewnia najlepszą dokładność w 99 językach i radzi sobie nawet w trudnych warunkach audio, z różnymi akcentami i jakością nagrań. Przewyższa starsze modele i inne API w publicznych testach.

Jakie jest opóźnienie?

Około 150 ms end-to-end, nie licząc opóźnień aplikacji i sieci. To 3 razy szybciej niż GPT-4o Mini Transcribe (500 ms).

Czym jest ujemne opóźnienie / predykcyjna transkrypcja?

Scribe przewiduje kolejne słowo i znaki interpunkcyjne zanim padną. Dzięki temu transkrypcja pojawia się płynnie, bez czekania na ciszę.

Jakie języki są obsługiwane?

Ponad 90 języków z automatycznym wykrywaniem. Model radzi sobie ze zmianą języka w trakcie rozmowy bez dodatkowych ustawień.

Jakie formaty audio są obsługiwane?

Audio PCM od 8 kHz do 48 kHz oraz kodowanie μ-law. Działa z telefonią, przeglądarką i studiem.

Czy Scribe v2 Realtime rozpoznaje mówców?

Nie, obecnie nie. Do rozpoznawania wielu mówców użyj Scribe v2 (batch), który obsługuje do 48 osób.

Jaki jest limit jednoczesnych transkrypcji?

Ponad 30 jednoczesnych streamów w planach Business. W planach Enterprise limity są wyższe. Skontaktuj się z nami, jeśli potrzebujesz więcej.

Czy Scribe v2 Realtime jest dostępny w ElevenAgents?

Tak. Scribe v2 Realtime jest domyślnie zintegrowany z platformą Agents.

Jakie certyfikaty zgodności są dostępne?

SOC 2, ISO 27001, PCI DSS Level 1, HIPAA i RODO. Tryb zero retention i przechowywanie danych w UE/India dostępne w Enterprise.

API zamiany mowy na tekst na żywo

Transkrybuj mowę na żywo z Scribe v2 Realtime

Pobierz klucz API Przeglądaj dokumentację

Scribe v2 Realtime to najdokładniejsze rozpoznawanie mowy na żywo – opóźnienie tylko 150 ms, obsługa ponad 90 języków. Dostępne przez API.

Demo

Kod

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

Stworzone dla szybkości i precyzji

Pobierz klucz API Przeglądaj dokumentację

Ekspresowe, bardzo dokładne i stworzone do mowy na żywo. Scribe v2 Realtime daje natychmiastową transkrypcję do zastosowań na żywo.

Najdokładniejsza transkrypcja na żywo

Scribe v2 Realtime osiąga najlepszą na rynku dokładność transkrypcji przy opóźnieniu ~150 ms, nawet w trudnych warunkach audio i przy różnych akcentach.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Stworzone na każdą sytuację

Transkrypcja działa nawet w hałasie, z muzyką w tle, silnym akcentem czy słabej jakości dźwiękiem.

Rozpoznawanie mowy zoptymalizowane pod kątem działania na żywo

Bazując na Scribe v1, Scribe v2 Realtime zapewnia opóźnienie ~150 ms i świetną dokładność niezależnie od akcentu, tonu czy otoczenia.

Stworzone dla Agents i aplikacji głosowych

Scribe v2 Realtime powstał z myślą o deweloperach tworzących agentów konwersacyjnych, asystentów spotkań i aplikacje głosowe, gdzie liczy się szybkość i precyzja.

Czy mogę otrzymać zwrot?

Jasne. Czy możesz podać numer zamówienia?

To jest EL4543490

Dziękuję. Rozpocząłem proces zwrotu zamówienia.

Zwrot zakończony

Predykcyjna transkrypcja dla niskiego opóźnienia

Scribe v2 Realtime przewiduje najbardziej prawdopodobne kolejne słowa i znaki interpunkcyjne – dzięki temu transkrypcja na żywo jest jeszcze dokładniejsza.

Scribe

makes

uses

is

has

new

Wykrywanie aktywności głosu

Wykrywa, kiedy mowa się zaczyna i kończy, precyzyjnie dzieląc audio dla płynnej transkrypcji na żywo.

Ręczna kontrola zatwierdzania

Deweloperzy sami decydują, kiedy zatwierdzić transkrypcję – idealne do własnych streamów i precyzyjnej kontroli.

Wiele formatów audio

Obsługuje PCM (8–48 kHz) i kodowanie μ-law, dzięki czemu działa z telefonią, przeglądarką i w studiu.

Modele dopasowane do każdego zastosowania

Scribe v2 do masowych zastosowań i Scribe v2 Realtime do pracy na żywo z niskimi opóźnieniami

Scribe v2

Najwyższa dokładność, stworzony do pracy wsadowej.

Dokładność >95%
90+ języków
Wykrywanie zdarzeń niebędących mową
Wykrywanie encji
Podpowiedzi słów kluczowych

Czytaj więcej

Scribe v2 w czasie rzeczywistym

Najniższe opóźnienie, do pracy na żywo.

Opóźnienie poniżej 150 ms
90+ języków
Transkrypcja na żywo
Wykrywanie aktywności głosu
Automatyczne rozpoznawanie języka

Czytaj więcej

Transkrybuj mowę w 90+ językach i różnych akcentach

Świetna dokładność niezależnie od akcentu, dialektu czy warunków nagrania.

Zmień languageCode, żeby zobaczyć inne języki

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // Ustaw język

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

Angielski

Chiński

Hiszpański

Francuski

Portugalski

Niemiecki

Japoński

Włoski

Hindi

AngielskiKliknij, aby zobaczyć podgląd

Z ElevenLabs korzystają największe firmy i marki

Zobacz historie klientów

“Od dubbingu Reels w lokalnych językach, po generowanie muzyki i głosów postaci w Horizon – ElevenLabs pozwala twórcom, firmom i organizacjom działać globalnie z głosem, muzyką i dźwiękiem.”
“Niezrównana dokładność Scribe w tylu językach pozwala Fieldy rozumieć każdą rozmowę i łatwo rozwijać się na nowych rynkach. Po przejściu na ElevenLabs Scribe Fieldy zwiększyło retencję użytkowników o 50%.”
“Dzięki ElevenLabs szybko dodaliśmy zaawansowaną zamianę tekstu na mowę do naszego SDK. Agenci mogą odpowiadać na pytania użytkowników lub reagować na to, co widzą, głosem w czasie rzeczywistym.”
“Twilio zintegrowało technologię generowania głosu AI od ElevenLabs z CPaaS, ulepszając ConversationRelay. Dzięki temu firmy i deweloperzy mogą tworzyć rozmowy głosowe AI, które brzmią naturalnie, są pełne emocji i reagują na żywo prosto z platformy Twilio CPaaS. Cieszymy się, że Twilio wybrało ElevenLabs, by ConversationRelay miało najbardziej naturalne i ekspresyjne głosy.”