ElevenLabs — Scribe v2 Realtime, ElevenLabs Agents에서 실시간 제공

실시간 에이전트를 위한 초저지연 음성 인식

이번 주에는 Scribe v2 실시간- 속도, 정확성, 대화의 정밀도가 중요한 에이전트 환경에 최적화된 초저지연 스트리밍 음성 인식(Speech to Text) 모델을 선보였습니다.

Scribe v2 Realtime은 30~80ms 내에 음성을 최첨단 정확도로 전사하여, 에이전트가 실제 사람처럼 자연스럽게 대화에 응답할 수 있도록 지원합니다.

실제 대화를 위해 설계

대부분의

Scribe v2 Realtime은 바로 이런 문제를 해결하도록 학습되었습니다.

음질이 좋지 않거나 다양한 억양, 군더더기 단어가 포함된 수백 개의 까다로운 영어 대화 샘플을 대상으로 한 내부 벤치마크에서, Scribe v2 Realtime은 어떤 실시간 ASR(자동 음성 인식) 모델보다도 사용자 의도를 더 정확하게 파악했습니다.

아래는 다양한 환경에서 Scribe v2 Realtime의 전사 정확도를 테스트한 실제 예시입니다.

00:00 / 00:00

최고 수준의 다국어 정확도

글로벌 기업으로서 스페인어, 포르투갈어, 힌디어 등 다양한 언어로 에이전트가 배포되는 만큼, Scribe v2 Realtime이 지역에 상관없이 최첨단 성능을 유지하는 것이 중요했습니다.

30개 언어의 정확도를 측정하는 FLEURS 다국어 벤치마크에서, Scribe v2 Realtime은 모든 저지연 ASR 모델 중 가장 낮은 단어 오류율(WER)을 기록했습니다.

이를 통해 기업은 속도나 정확도를 희생하지 않고도 즉각적이고 정확하게 응답하는 다국어 에이전트를 도입할 수 있습니다.

Scribe v2 Realtime, ElevenLabs Agents에서 실시간 제공