Poznaj Scribe

Autor: Tim von Känel; Flavio Schneider
Opublikowano: 26 lut 2025

PosłuchajPosłuchaj tego artykułu

0:00

0:000:00

Scribe, nasz pierwszy [zamiana mowy na tekst] model, jest najdokładniejszym modelem transkrypcyjnym na świecie. Zbudowany, aby radzić sobie z nieprzewidywalnością dźwięku w rzeczywistym świecie, Scribe transkrybuje mowę w 99 językach, oferując znaczniki czasowe na poziomie słów, diarizację mówców i tagowanie zdarzeń audio - wszystko dostarczane w uporządkowanej odpowiedzi dla płynnej integracji.

Scribe jest zaprojektowany z myślą o precyzji. W testach benchmarkowych FLEURS i Common Voice w 99 językach, konsekwentnie przewyższa wiodące modele, takie jak Gemini 2.0 Flash, Whisper Large V3 i Deepgram Nova-3. Niezależnie od tego, czy są to podsumowania spotkań, napisy do filmów, czy nawet teksty piosenek, Scribe oferuje najniższy wskaźnik błędów transkrypcyjnych w języku włoskim (98,7%), angielskim (96,7%) i 97 innych językach.

Scribe sprawia, że ASR jest powszechnie dostępne - dramatycznie redukując błędy w tradycyjnie niedostatecznie obsługiwanych językach, takich jak serbski, kantoński i malajalam, gdzie konkurencyjne modele często przekraczają 40% wskaźników błędów słownych.

The world's most accurate ASR model by IIElevenLabs.

Deweloperzy mogą zintegrować Scribe już dziś za pośrednictwem naszego API mowy na tekst aby uzyskać zorganizowane transkrypcje JSON z diarizacją mówców i znacznikami czasowymi na poziomie słów oraz znacznikami zdarzeń niespeechowych (np. śmiech). Wkrótce zostanie wydana wersja o niskim opóźnieniu do zastosowań w czasie rzeczywistym.

Twórcy i firmy mogą korzystać z Scribe bezpośrednio za pośrednictwem Panel ElevenLabs aby przesłać pliki audio lub wideo i wygenerować sformatowane transkrypcje.

Zacznij budować z Scribe:

Dokumentacja API . Spróbuj w panelu ElevenLabs

Benchmarki

KWIATY - Wskaźnik błędów słownych % - 102 języki

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - Wskaźnik błędów słownych % - 102 języki

Bar chart comparing word error rates for different voice recognition models across various countries.

Wkłady

Lider badań, szkolenie, architektura

Flavio Schneider

Lider projektu, dane do wstępnego szkolenia, dane do dostrajania

Tim von Känel

Wnioskowanie, Optymalizacje

Maximiliano Levi

Uczestnicy badania

Johan Nordberg, Piotr Dąbkowski

Frontend

Austin Malerba

Backend

Hristo Stoychev

Pozyskiwanie danych

Alex George

Poznaj Scribe

Benchmarki

KWIATY - Wskaźnik błędów słownych % - 102 języki

Common Voice - Wskaźnik błędów słownych % - 102 języki

Wkłady

Podobne artykuły

Poznaj Flash

Poznaj Conversational AI Agents

ElevenLabs wychodzi z wersji beta i wprowadza Eleven Multilingual v2 - podstawowy model AI do mowy w 30 językach

Przedstawiamy Eleven Multilingual v1: Nasz nowy model syntezy mowy