
에이전트 템플릿 소개
- 카테고리
- 제품
- 날짜
에이전트 환경에 최적화된 초저지연 스트리밍 음성 인식(Speech to Text) 모델이 이제 Agents 플랫폼에서 사용 가능합니다.
이번 주에는 Scribe v2 실시간- 속도, 정확성, 대화의 정밀도가 중요한 에이전트 환경에 최적화된 초저지연 스트리밍 음성 인식(Speech to Text) 모델을 선보였습니다.
Scribe v2 Realtime은 30~80ms 내에 음성을 최첨단 정확도로 전사하여, 에이전트가 실제 사람처럼 자연스럽게 대화에 응답할 수 있도록 지원합니다.
대부분의 음성 인식 시스템은 깨끗한 테스트 환경에서는 잘 작동하지만, 현실에서는 배경 소음, 다양한 억양, 이름·이메일·ID 같은 식별자 등에서 어려움을 겪습니다.
Scribe v2 Realtime은 바로 이런 문제를 해결하도록 학습되었습니다.
음질이 좋지 않거나 다양한 억양, 군더더기 단어가 포함된 수백 개의 까다로운 영어 대화 샘플을 대상으로 한 내부 벤치마크에서, Scribe v2 Realtime은 어떤 실시간 ASR(자동 음성 인식) 모델보다도 사용자 의도를 더 정확하게 파악했습니다.
아래는 다양한 환경에서 Scribe v2 Realtime의 전사 정확도를 테스트한 실제 예시입니다.
글로벌 기업으로서 스페인어, 포르투갈어, 힌디어 등 다양한 언어로 에이전트가 배포되는 만큼, Scribe v2 Realtime이 지역에 상관없이 최첨단 성능을 유지하는 것이 중요했습니다.
30개 언어의 정확도를 측정하는 FLEURS 다국어 벤치마크에서, Scribe v2 Realtime은 모든 저지연 ASR 모델 중 가장 낮은 단어 오류율(WER)을 기록했습니다.
이를 통해 기업은 속도나 정확도를 희생하지 않고도 즉각적이고 정확하게 응답하는 다국어 에이전트를 도입할 수 있습니다.
Scribe v2 Realtime은 ElevenLabs Agents에 완전히 통합되어 있으며, 고급 설정(Advanced configuration)에서 활성화할 수 있습니다.




.webp&w=3840&q=80)