본문 바로가기

Scribe v2 Realtime 출시

오늘 Scribe v2 Realtime을 소개합니다. 가장 정확한 저지연 음성 인식(Speech to Text) 모델로, 150ms 이내에 실시간 전사를 제공합니다.

Scribe v2 Realtime

Scribe v2 Realtime: 실시간 전사를 위한 가장 정확한 모델

Scribe v2 Realtime

Scribe v2 Realtime은 저지연 음성 인식(Speech to Text)의 새로운 기준을 제시합니다.

실시간 사용 사례를 위해 설계—음성 에이전트, 회의 어시스턴트, 실시간 자막 등에서 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어를 포함한 90개 언어의 음성을 150ms 이내에 전사합니다.

Scribe v2 Realtime benchmark

Scribe v2 Realtime은 에이전트형(Agentic) 사용 사례에 최적화되어 있습니다. 배경 소음과 복잡한 정보가 포함된 500개의 어려운 샘플에서 모든 다른 모델보다 뛰어난 성능을 보입니다.

주요 기능

  • 네거티브 레이턴시: 다음 단어 및 문장 부호 예측
  • 자동 언어 감지: 어떤 언어로든 말하고, 대화 중에도 언어 전환 가능
  • 텍스트 컨디셔닝: 이전 배치 내용을 바탕으로 전사를 이어가므로, 연결을 재시작할 때 유용
  • 음성 활동 감지 (VAD)
  • 수동 커밋: 전사 구간을 언제 확정할지 직접 제어 가능
  • 다양한 오디오 포맷 지원: PCM(48kHz) 및 μ-law 인코딩 지원
  • 엔터프라이즈 지원 SOC 2, ISO 27001, PCI DSS L1, HIPAA, GDPR 준수, EU 및 인도 데이터 레지던시 옵션, 민감한 작업을 위한 제로 보존 모드 제공

Scribe v2 Realtime은 실시간으로 사람 수준의 이해력을 제공하여 자연스러운 대화와 즉각적인 응답이 가능합니다. 30개의 주요 유럽 및 아시아 언어에서 93.5%의 정확도를 달성했습니다.

API로 개발하기

Scribe v2 Realtime은 오늘부터 ElevenLabs API를 통해 이용할 수 있습니다.

문서 살펴보기:https://elevenlabs.io/docs/cookbooks/speech-to-text/streaming

Scribe v2 Realtime API

ElevenLabs Agents에서 Scribe v2 Realtime 사용하기

Scribe v2 Realtime으로 자연스럽고 사람 같은 에이전트를 배포하세요. 실시간으로 이해하고 응답할 수 있는 지원, 영업, 제품 내 음성 어시스턴트를 만들어보세요.

자세히 보기:https://elevenlabs.io/agents

Scribe v2 Realtime for Agents

지금 바로 시작하세요

API 또는 ElevenLabs Agents에서 직접 Scribe v2 Realtime을 사용해보세요.

회원가입 바로가기:https://elevenlabs.io/app/sign-up

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요