Poznaj Scribe

Transkrybuj mowę na tekst za pomocą najdokładniejszego modelu ASR na świecie

Scribe, nasz pierwszy [zamiana mowy na tekst] model, jest najdokładniejszym modelem transkrypcyjnym na świecie. Zbudowany, aby radzić sobie z nieprzewidywalnością dźwięku w rzeczywistym świecie, Scribe transkrybuje mowę w 99 językach, oferując znaczniki czasowe na poziomie słów, diarizację mówców i tagowanie zdarzeń audio - wszystko dostarczane w uporządkowanej odpowiedzi dla płynnej integracji.

Scribe jest zaprojektowany z myślą o precyzji. W testach benchmarkowych FLEURS i Common Voice w 99 językach, konsekwentnie przewyższa wiodące modele, takie jak Gemini 2.0 Flash, Whisper Large V3 i Deepgram Nova-3. Niezależnie od tego, czy są to podsumowania spotkań, napisy do filmów, czy nawet teksty piosenek, Scribe oferuje najniższy wskaźnik błędów transkrypcyjnych w języku włoskim (98,7%), angielskim (96,7%) i 97 innych językach.

Scribe sprawia, że ASR jest powszechnie dostępne - dramatycznie redukując błędy w tradycyjnie niedostatecznie obsługiwanych językach, takich jak serbski, kantoński i malajalam, gdzie konkurencyjne modele często przekraczają 40% wskaźników błędów słownych.

Deweloperzy mogą zintegrować Scribe już dziś za pośrednictwem naszego API mowy na tekst aby uzyskać zorganizowane transkrypcje JSON z diarizacją mówców i znacznikami czasowymi na poziomie słów oraz znacznikami zdarzeń niespeechowych (np. śmiech). Wkrótce zostanie wydana wersja o niskim opóźnieniu do zastosowań w czasie rzeczywistym.

Twórcy i firmy mogą korzystać z Scribe bezpośrednio za pośrednictwem Panel ElevenLabs aby przesłać pliki audio lub wideo i wygenerować sformatowane transkrypcje.

Zacznij budować z Scibe:

Dokumentacja API . Spróbuj w panelu ElevenLabs

Benchmarki

KWIATY - Wskaźnik błędów słownych % - 102 języki

Common Voice - Wskaźnik błędów słownych % - 102 języki

Wkłady

Lider badań, szkolenie, architektura

Flavio Schneider

Lider projektu, dane do wstępnego szkolenia, dane do dostrajania

Tim von Känel

Wnioskowanie, Optymalizacje

Maximiliano Levi

Uczestnicy badania

Johan Nordberg, Piotr Dabkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Pozyskiwanie danych

Alex George

Zobacz więcej

Badania

Poznaj Flasha

Nigdy nie doświadczyłeś tak szybkiego TTS przypominającego ludzkie

ElevenLabs

Twórz z najwyższą jakością dźwięku AI