본문 바로가기

Scribe 만나보기

세계에서 가장 정확한 ASR 모델로 음성을 텍스트로 변환

Introducing IIscribe V1, the world's most accurate speech-to-text model.

Scribe는 ElevenLabs의 첫 번째 음성 텍스트 변환 모델로, 세계에서 가장 정확한 전사 모델입니다. 실제 환경의 다양한 오디오 상황을 처리할 수 있도록 설계되었으며, Scribe는 99개 언어의 음성을 텍스트로 변환합니다. 단어 단위 타임스탬프, 화자 분리, 오디오 이벤트 태깅 기능을 제공하며, 모든 결과를 구조화된 형태로 제공해 손쉬운 연동이 가능합니다.

Scribe는 정밀함을 위해 설계되었습니다. 99개 언어를 대상으로 한 FLEURS 및 Common Voice 벤치마크 테스트에서 Gemini 2.0 Flash, Whisper Large V3, Deepgram Nova-3 등 주요 모델보다 항상 뛰어난 성능을 보입니다. 회의 요약, 영화 자막, 노래 가사 등 어떤 용도든 Scribe는 이탈리아어(98.7%), 영어(96.7%), 그리고 97개 언어에서 가장 낮은 자동 전사 단어 오류율을 기록합니다.

Scribe는 ASR을 모두에게 쉽게 제공합니다. 경쟁 모델들이 40% 이상의 단어 오류율을 보이는 세르비아어, 광둥어, 말라얄람어 등 기존에 소외된 언어에서도 오류를 획기적으로 줄여줍니다.

The world's most accurate ASR model by IIElevenLabs.

개발자는 오늘 바로 음성 텍스트 변환 API를 통해 Scribe를 연동할 수 있습니다. 화자 분리, 단어 단위 타임스탬프, 비음성 이벤트(예: 웃음) 표시가 포함된 구조화된 JSON 전사 결과를 받을 수 있습니다. 실시간 적용을 위한 저지연 버전도 곧 출시될 예정입니다.

크리에이터와 기업은 ElevenLabs 대시보드에서 오디오 또는 비디오 파일을 업로드해 포맷된 전사본을 바로 생성할 수 있습니다.

Scribe로 시작하기:

API 문서 | ElevenLabs 대시보드에서 체험하기

벤치마크

FLEURS - 단어 오류율 % - 102개 언어

Bar chart comparing word error rates for different languages and speech recognition models.

Common Voice - 단어 오류율 % - 102개 언어

Bar chart comparing word error rates for different voice recognition models across various countries.

기여자

연구 리드, 트레이닝, 아키텍처

Flavio Schneider

프로젝트 리드, 프리트레이닝 데이터, 파인튜닝 데이터

Tim von Känel

추론, 최적화

Maximiliano Levi

연구 기여자

Johan Nordberg, Piotr Dabkowski

프론트엔드

Austin Malerba

백엔드

Hristo Stoychev

데이터 수집

Alex George

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요