
보이스 디자인 v3 출시
- 카테고리
- 연구
- 날짜
가장 표현력이 뛰어난 텍스트 음성 변환(TTS) 모델
Eleven v3 (알파)를 공개하게 되어 기쁩니다 — 가장 표현력 있는 텍스트 음성 변환 모델.
이번 연구 프리뷰에서는 음성 생성에 전례 없는 제어력과 사실감을 제공합니다:
Eleven v3 (알파)는 이전 모델보다 더 많은 프롬프트 엔지니어링이 필요하지만, 생성 결과는 놀랍습니다.
영상, 오디오북, 미디어 툴을 작업 중이라면 새로운 표현력을 경험할 수 있습니다. 실시간 및 대화형 용도에는 현재 v2.5 Turbo 또는 Flash 사용을 권장합니다. v3의 실시간 버전도 개발 중입니다.
Eleven v3는 오늘부터 웹사이트와 API.
Multilingual v2 출시 이후, 음성 AI가 영화, 게임 개발, 교육, 접근성 등 다양한 분야에서 활용되고 있습니다. 하지만 한계는 음질이 아니라 바로 표현력이었습니다. 더 과장된 감정, 대화 중 끼어들기, 자연스러운 주고받기가 어려웠습니다.
Eleven v3는 이 부분을 해결합니다. 처음부터 한숨, 속삭임, 웃음, 반응 등 살아있는 듯한 음성을 만들기 위해 설계되었습니다.
| Feature | What it unlocks |
|---|---|
| Audio tags | Inline control of tone, emotion, and non-verbal reactions |
| Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
| 70+ languages | Full coverage of high-demand global languages |
| Deeper text understanding | Better stress, cadence, and expressivity from text input |
오디오 태그는 스크립트 내에 소문자 대괄호로 입력합니다. 자세한 내용은 문서 내 v3 프롬프트 가이드.
프로페셔널 음성 복제(PVC)는 현재 Eleven v3에 완전히 최적화되어 있지 않아, 이전 모델보다 복제 품질이 낮을 수 있습니다. 연구 프리뷰 단계에서는 v3 기능이 필요하다면 인스턴트 음성 복제(IVC)나 디자인된 음성을 사용하는 것이 좋습니다. PVC의 v3 최적화는 곧 제공될 예정입니다.
예를 들어, “[whispers] 뭔가 다가오고 있어… [sighs] 느껴져.”처럼 프롬프트를 입력할 수 있습니다. 더 표현력 있는 제어를 원한다면 여러 태그를 조합할 수도 있습니다:
Eleven v3는 기존 텍스트 음성 변환 엔드포인트에서 지원됩니다. 추가로, 새로운 텍스트 대화 API 엔드포인트도 도입했습니다. 각 화자의 턴을 나타내는 JSON 객체 배열을 구조화하여 입력하면, 모델이 자연스럽게 이어지는 오디오 파일을 생성합니다:
엔드포인트가 자동으로 화자 전환, 감정 변화, 끼어들기를 관리합니다.
자세한 내용은 여기.
| Plan | Launch promo | At the end of June |
|---|---|---|
| UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
| UI (enterprise) | 80% off business plan pricing | Business plan pricing |
v3 활성화 방법:
API 지원과 Studio 지원도 곧 제공될 예정입니다. 조기 이용을 원하시면 영업팀에 문의해 주세요.
Eleven v3 (알파)는 이전 모델보다 더 많은 프롬프트 엔지니어링이 필요합니다. 잘 작동하면 결과가 매우 뛰어나지만, 신뢰성과 지연 시간이 높아 실시간 및 대화형 용도에는 적합하지 않습니다. 이런 경우에는 Eleven v2.5 Turbo/Flash를 권장합니다.
더 자세한 내용은 전체 v3 문서 및 FAQ를 참고하세요.
v3가 몰입형 스토리텔링부터 영화 제작 파이프라인까지 다양한 분야에서 어떻게 활용될지 기대하고 있습니다.