Scribe v2 출시

게시일: 2026년 1월 9일

듣기이 기사 오디오로 듣기

0:00

0:000:00

영업팀 문의

자세히 알아보기

Scribe v2는 대량 전사, 자막, 캡션 작업을 위해 설계되었습니다. Scribe v1보다 안정성과 정확성이 향상되었으며, 긴 오디오, 일시정지, 톤 변화, 긴 침묵 구간도 더 잘 처리합니다.

Scribe v2 Realtime은 초저지연 및

Scribe v2는 업계 표준 벤치마크에서 가장 낮은 단어 오류율을 기록했습니다.

문맥 인식 전사를 위한 키텀 프롬프트(Keyterm Prompting)

키텀 프롬프트는 기존의 커스텀 단어(Custom Vocabulary)보다 한 단계 더 나아가 전사 내용의 문맥을 활용합니다. 최대 100개의 단어나 구를 선택하면, Scribe v2가 해당 용어를 언제 전사할지 정확하게 판단합니다. 기술 분야, 브랜드명, 업계 특화 용어에 특히 적합합니다.

정확한 타임스탬프가 포함된 내장 엔터티 감지

Scribe v2에는 구조화된 오디오 분석을 위한 기본 엔터티 감지 기능이 포함되어 있습니다.

개인 식별 정보, 건강 데이터, 결제 정보 등 최대 56개 카테고리를 선택할 수 있습니다. Scribe v2는 전사본에서 해당 항목과 정확한 타임스탬프를 자동으로 감지하여, 대규모 민감 정보 검토, 삭제, 처리 작업을 쉽게 할 수 있습니다.

API 문서에서 자세히 알아보기:https://elevenlabs.io/docs/developers/guides/cookbooks/speech-to-text/batch/entity-detection

자동 다국어 전사

Scribe v2는 기본적으로 스마트 다국어 워크플로우를 지원합니다.

하나의 오디오 파일에 여러 언어가 포함되어 있어도 전송할 수 있습니다. 모델이 각 언어를 자동으로 감지하고, 별도의 분할이나 설정 없이 정확하게 전사합니다.

프로덕션 워크플로우를 위한 추가 기능

Scribe v2에는 엔터프라이즈 및 개발자 환경을 위한 다양한 기능이 포함되어 있습니다:

명확하고 직관적인 화자 구분을 위한 스마트 화자 분리
정확한 자막 정렬과 인터랙티브 경험을 위한 단어 단위 타임스탬프
웃음, 발소리 등 비음성 이벤트를 감지하는 동적 오디오 태깅
SOC 2, ISO 27001, PCI DSS L1, HIPAA, GDPR 준수, EU 및 인도 데이터 레지던시, 제로 보관 모드 지원 등 엔터프라이즈 환경 대응