
Poznaj Flasha
Nigdy nie doświadczyłeś tak szybkiego TTS przypominającego ludzkie
Transkrybuj mowę na tekst za pomocą najdokładniejszego modelu ASR na świecie
Scribe, nasz pierwszy [zamiana mowy na tekst] model, jest najdokładniejszym modelem transkrypcyjnym na świecie. Zbudowany, aby radzić sobie z nieprzewidywalnością dźwięku w rzeczywistym świecie, Scribe transkrybuje mowę w 99 językach, oferując znaczniki czasowe na poziomie słów, diarizację mówców i tagowanie zdarzeń audio - wszystko dostarczane w uporządkowanej odpowiedzi dla płynnej integracji.
Scribe jest zaprojektowany z myślą o precyzji. W testach benchmarkowych FLEURS i Common Voice w 99 językach, konsekwentnie przewyższa wiodące modele, takie jak Gemini 2.0 Flash, Whisper Large V3 i Deepgram Nova-3. Niezależnie od tego, czy są to podsumowania spotkań, napisy do filmów, czy nawet teksty piosenek, Scribe oferuje najniższy wskaźnik błędów transkrypcyjnych w języku włoskim (98,7%), angielskim (96,7%) i 97 innych językach.
Scribe sprawia, że ASR jest powszechnie dostępne - dramatycznie redukując błędy w tradycyjnie niedostatecznie obsługiwanych językach, takich jak serbski, kantoński i malajalam, gdzie konkurencyjne modele często przekraczają 40% wskaźników błędów słownych.
Deweloperzy mogą zintegrować Scribe już dziś za pośrednictwem naszego API mowy na tekst aby uzyskać zorganizowane transkrypcje JSON z diarizacją mówców i znacznikami czasowymi na poziomie słów oraz znacznikami zdarzeń niespeechowych (np. śmiech). Wkrótce zostanie wydana wersja o niskim opóźnieniu do zastosowań w czasie rzeczywistym.
Twórcy i firmy mogą korzystać z Scribe bezpośrednio za pośrednictwem Panel ElevenLabs aby przesłać pliki audio lub wideo i wygenerować sformatowane transkrypcje.
Zacznij budować z Scibe:
Dokumentacja API . Spróbuj w panelu ElevenLabs
Lider badań, szkolenie, architektura
Flavio Schneider
Lider projektu, dane do wstępnego szkolenia, dane do dostrajania
Tim von Känel
Wnioskowanie, Optymalizacje
Maximiliano Levi
Uczestnicy badania
Johan Nordberg, Piotr Dabkowski
Frontend
Austin Malerba
Backend
Hristo Stoychev
Pozyskiwanie danych
Alex George
Nigdy nie doświadczyłeś tak szybkiego TTS przypominającego ludzkie
Nasza kompleksowa platforma do tworzenia konfigurowalnych, interaktywnych agentów głosowych