Scribe 만나보기

작성자: Tim von Känel; Flavio Schneider
게시일: 2025년 2월 26일

듣기이 기사 오디오로 듣기

0:00

0:000:00

Scribe는 ElevenLabs의 첫 번째 음성 텍스트 변환 모델로, 세계에서 가장 정확한 전사 모델입니다. 실제 환경의 다양한 오디오 상황을 처리할 수 있도록 설계되었으며, Scribe는 99개 언어의 음성을 텍스트로 변환합니다. 단어 단위 타임스탬프, 화자 분리, 오디오 이벤트 태깅 기능을 제공하며, 모든 결과를 구조화된 형태로 제공해 손쉬운 연동이 가능합니다.

Scribe는 정밀함을 위해 설계되었습니다. 99개 언어를 대상으로 한 FLEURS 및 Common Voice 벤치마크 테스트에서 Gemini 2.0 Flash, Whisper Large V3, Deepgram Nova-3 등 주요 모델보다 항상 뛰어난 성능을 보입니다. 회의 요약, 영화 자막, 노래 가사 등 어떤 용도든 Scribe는 이탈리아어(98.7%), 영어(96.7%), 그리고 97개 언어에서 가장 낮은 자동 전사 단어 오류율을 기록합니다.

Scribe는 ASR을 모두에게 쉽게 제공합니다. 경쟁 모델들이 40% 이상의 단어 오류율을 보이는 세르비아어, 광둥어, 말라얄람어 등 기존에 소외된 언어에서도 오류를 획기적으로 줄여줍니다.

The world's most accurate ASR model by IIElevenLabs.

개발자는 오늘 바로 음성 텍스트 변환 API를 통해 Scribe를 연동할 수 있습니다. 화자 분리, 단어 단위 타임스탬프, 비음성 이벤트(예: 웃음) 표시가 포함된 구조화된 JSON 전사 결과를 받을 수 있습니다. 실시간 적용을 위한 저지연 버전도 곧 출시될 예정입니다.

크리에이터와 기업은 ElevenLabs 대시보드에서 오디오 또는 비디오 파일을 업로드해 포맷된 전사본을 바로 생성할 수 있습니다.

Scribe로 시작하기:

API 문서 | ElevenLabs 대시보드에서 체험하기