
Eleven v3 오디오 태그: 감정이 담긴 음성 표현
- 카테고리
- 리소스
- 날짜
실시간으로 소통하는 AI 시스템을 어떻게 구축하는지, 턴테이킹, 지연 시간, 표현력 있는 전달 방식 등 기술적 결정과 실제 적용된 모델을 소개합니다.
ElevenLabs는 오랜 시간 이 분야를 준비해 왔습니다. 이 글에서는 지금까지 출시한 기능과 그에 따른 연구, 제품 결정 과정을 소개합니다.
주요 제품 - v3 대화형 ElevenAgents
익스프레시브 모드 - Mark - 개인 대출 인바운드(패닉) - 출시 자료.mp4
인터랙션 시스템이 자연스럽고 몰입감 있는 대화를 제공하려면 세 가지 요소가 잘 맞아야 합니다:
*모델 추론 시간만을 의미합니다. 실제 전체 지연 시간은 사용자의 위치, 엔드포인트 종류 등에 따라 달라질 수 있습니다.
지금까지 출시한 주요 기능
예측형 턴테이킹. v3 Conversational의 별도 기능으로, 사용자가 침묵할 때 LLM 응답 생성을 미리 시작해 체감 지연을 줄여줍니다.
Flash v2.5. 실시간 저지연 사용을 위해 설계된 가장 빠른 텍스트 음성 변환 모델로, 약 75ms의 추론 속도를 제공합니다.*
Scribe v2. 업계 최고 정확도를 자랑하는 음성 인식(음성 텍스트 변환) 모델입니다.
ElevenAgents 익스프레시브 모드. 에이전트가 [laughs], [whispers], [sighs], [slow]와 같은 표현 태그를 활용해 상황에 맞는 전달 방식을 조절할 수 있습니다.
ElevenAgents 익스프레시브 모드. 에이전트가 [웃음], [속삭임], [한숨], [느리게] 등 표현 태그를 활용해 상황에 맞는 전달을 할 수 있습니다.
ElevenAgents 익스프레시브 모드. 에이전트가 [웃음], [속삭임], [한숨], [느리게]와 같은 표현 태그를 활용해 상황에 맞는 전달을 할 수 있습니다.
앞으로의 방향
여전히 많은 AI 대화가 단순 질의응답처럼 느껴집니다. 진짜 대화는 그렇지 않습니다. 그 차이를 좁히는 것이 ElevenLabs의 목표입니다.




