본문 바로가기

멀티모달 대화형 AI 소개

이제 AI 에이전트가 음성 단어와 텍스트 입력을 동시에 자연스럽게 처리하여, 더욱 자연스럽고 효율적이며 견고한 사용자 경험을 제공합니다.

Multimodal

오늘 ElevenLabs는 대화형 AI 플랫폼의 중요한 업그레이드, 즉 진정한 텍스트와 음성 멀티모달 기능 도입을 발표합니다. 이제 AI 에이전트가 음성 언어와 입력된 텍스트를 동시에 이해하고 처리할 수 있습니다. 이 기능은 다양한 상황에서 더 자연스럽고 유연하며 효과적인 상호작용을 위해 설계되었습니다.

음성만으로는 한계가 있는 상호작용 해결

음성은 강력하고 직관적인 소통 방식이지만, 음성 전용 AI 에이전트 는 특정 상황에서 어려움을 겪을 수 있습니다. 실제 비즈니스 환경에서 자주 발생하는 문제로는 다음과 같은 사례가 있습니다:

  • 음성 인식 오류: 이메일 주소, ID, 운송장 번호 등 특정 영문자·숫자 데이터를 음성만으로 완벽하게 입력받기는 어렵습니다. 이런 오류는 잘못된 고객 정보 조회 등 심각한 문제로 이어질 수 있습니다.
  • 복잡한 입력의 사용자 경험: 사용자가 신용카드 번호처럼 긴 숫자 정보를 음성으로 말해야 할 때, 번거롭고 오류가 발생하기 쉽습니다.

멀티모달의 힘: 텍스트와 음성의 결합

에이전트가 텍스트와 음성을 모두 처리할 수 있게 하여, 사용자가 상황에 맞는 입력 방식을 자유롭게 선택할 수 있습니다. 이 하이브리드 방식은 대화가 더 매끄럽고 견고하게 이어지도록 도와줍니다. 사용자는 자연스럽게 말하다가, 정확성이 중요하거나 타이핑이 더 편리할 때는 같은 대화 내에서 바로 텍스트 입력으로 전환할 수 있습니다.

핵심 이점

텍스트와 음성 멀티모달 도입으로 얻을 수 있는 주요 장점:

  • 상호작용 정확도 향상: 말로 전달하기 어렵거나 음성 인식 오류가 잦은 정보를 직접 입력할 수 있습니다.
  • 사용자 경험 개선: 입력 방식의 유연성으로 상호작용이 더 자연스럽고 덜 제한적으로 느껴집니다. 특히 민감하거나 복잡한 데이터 입력에 효과적입니다.
  • 업무 완료율 증가: 오류와 불편함을 줄여 더 높은 성공률을 기대할 수 있습니다.
  • 더 자연스러운 대화 흐름: 입력 방식 전환이 자유로워 실제 사람과의 대화처럼 자연스럽게 이어집니다.

주요 기능

멀티모달 대화형 AI의 주요 기능은 다음과 같습니다:

  • 동시 처리: 에이전트가 음성과 텍스트 입력을 실시간으로 함께 해석하고 응답할 수 있습니다.
  • 간편한 설정: 위젯 설정에서 간단하게 텍스트 입력 기능을 활성화할 수 있습니다.
  • 텍스트 전용 모드: 필요에 따라 기존 텍스트 기반 챗봇처럼 에이전트를 설정할 수 있습니다.

간편한 통합 및 배포

이 새로운 멀티모달 기능은 ElevenLabs 플랫폼 전반에서 기본 지원됩니다:

  • 위젯: HTML 한 줄로 바로 배포 가능.
  • SDK: 개발자들이 깊이 있게 통합할 수 있도록 완벽 지원.
  • WebSocket: 멀티모달 기능을 갖춘 실시간 양방향 통신 지원.

선도적인 플랫폼 기반

멀티모달 상호작용은 ElevenLabs 대화형 AI 플랫폼의 기존 혁신 기술을 모두 활용합니다:

  • 업계 최고 수준의 음성: 32개 이상의 언어로 제공되는 최고 품질의 음성 지원.
  • 고급 음성 모델: 최첨단 음성 인식(STT) 및 텍스트 음성 변환(TTS) 기술 적용.
  • 글로벌 인프라: 이미 Twilio 및 SIP 트렁킹 인프라를 통해 전 세계에 배포됨.

시작하기

ElevenLabs 대화형 AI 에이전트:

  1. 위젯 설정 메뉴로 이동하세요.
  2. "텍스트 입력 허용" 옵션을 활성화하세요.

텍스트+음성 멀티모달 기능이 대화형 AI의 역량과 사용자 경험을 크게 향상시킬 것이라 믿습니다. 이 강력한 새 기능을 사용자 여러분이 어떻게 활용할지 기대하고 있습니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요