자연스러운 인간-AI 소통을 위한 인터랙션 모델

최종 업데이트 2026년 5월 12일 • 2분 소요

실시간으로 소통하는 AI 시스템을 어떻게 구축하는지, 턴테이킹, 지연 시간, 표현력 있는 전달 방식 등 기술적 결정과 실제 적용된 모델을 소개합니다.

ElevenLabs는 오랜 시간 이 분야를 준비해 왔습니다. 이 글에서는 지금까지 출시한 기능과 그에 따른 연구, 제품 결정 과정을 소개합니다.

주요 제품 - v3 대화형 ElevenAgents

주요 제품 - ElevenAgents v3 대화형

인터랙션 시스템이 자연스럽고 몰입감 있는 대화를 제공하려면 세 가지 요소가 잘 맞아야 합니다:

*모델 추론 시간만을 의미합니다. 실제 전체 지연 시간은 사용자의 위치, 엔드포인트 종류 등에 따라 달라질 수 있습니다.

1초 미만의 응답 속도. ElevenAgents는 내부 벤치마크 기준 100ms 미만, 전화 통합 시 200ms 미만의 응답 속도를 목표로 최적화되어 있습니다. Flash v2.5(가장 빠른 텍스트 음성 변환 모델)는 약 75ms의 추론 속도를 자랑합니다.*
중단을 처리하는 턴테이킹. 원활한 대화를 위해서는 침묵뿐 아니라 실제로 어떤 말을 하고 있는지도 고려하는 턴테이킹 시스템이 필요합니다.
표현력 있고 자연스러운 전달. 모델이 상황에 맞는 톤, 속도, 감정으로 응답해야 합니다.

지금까지 출시한 주요 기능

예측형 턴테이킹. v3 Conversational의 별도 기능으로, 사용자가 침묵할 때 LLM 응답 생성을 미리 시작해 체감 지연을 줄여줍니다.

Flash v2.5. 실시간 저지연 사용을 위해 설계된 가장 빠른 텍스트 음성 변환 모델로, 약 75ms의 추론 속도를 제공합니다.*

Scribe v2. 업계 최고 정확도를 자랑하는 음성 인식(음성 텍스트 변환) 모델입니다.

ElevenAgents 익스프레시브 모드. 에이전트가 [laughs], [whispers], [sighs], [slow]와 같은 표현 태그를 활용해 상황에 맞는 전달 방식을 조절할 수 있습니다.

ElevenAgents 익스프레시브 모드. 에이전트가 [웃음], [속삭임], [한숨], [느리게] 등 표현 태그를 활용해 상황에 맞는 전달을 할 수 있습니다.

ElevenAgents 익스프레시브 모드. 에이전트가 [웃음], [속삭임], [한숨], [느리게]와 같은 표현 태그를 활용해 상황에 맞는 전달을 할 수 있습니다.

앞으로의 방향