
Eleven v3 (알파) 출시
- 카테고리
- 연구
- 날짜
Eleven v3 오디오 태그로 AI 음성을 업그레이드하세요. 톤, 감정, 속도를 조절해 자연스러운 대화를 구현할 수 있습니다. 텍스트 음성 변환에 상황 인식을 더해보세요.
오디오 태그는 새로운 Eleven v3 (알파) 텍스트 음성 변환 모델의 핵심 요소입니다. 대사가 전달되는 방식을 직접 조절할 수 있어, 실제 상황에 맞게 톤, 감정, 속도를 자유롭게 바꿀 수 있습니다.
가장 간단하게는, 오디오 태그는 대괄호 안에 들어가는 단어입니다. 모델은 이를 연기 지시로 해석합니다. 문장 중간에도 감정 변화나 상황 전환을 자연스럽게 표현할 수 있어, AI가 상황을 어느 정도 인식하는 것처럼 들리게 만듭니다.
상황 인식이란 AI가 그 순간에 맞게 말하는 방식을 바꾼다는 뜻입니다. 오디오 태그를 사용하면 모델이 무엇을 말하는지뿐만 아니라, 어떻게 반응하는지도 직접 조절할 수 있습니다.
[SHOUTING] 태그로 긴박함을 더하거나, [WHISPER]로 경고를 부드럽게 하거나, [SIGH]로 망설임을 표현하는 등, 태그를 활용하면 단순한 내레이션이 실제 연기처럼 바뀝니다. 특히 맥락이 중요한 장면이나 역동적인 상황에서 더욱 유용합니다.
예를 들어, 11 United와 12 United의 축구 경기 하이라이트 영상을 Veo 3로 스크립트한다고 상상해보세요. 경기의 긴장감이 고조되는 순간을 이렇게 표현할 수 있습니다: “수비수를 제치고 나아갑니다 — [EXCITED] 여기서 크로스가 올라갑니다 — [SHOUTING] 골입니다!”
또는 오디오북에서 긴장감 넘치는 순간을 연기할 수도 있습니다: “[WHISPERING] 집 안에 누가 있는 것 같아. [PAUSE] 조용히 있어.”
이런 태그는 단순한 스타일 요소가 아닙니다. 순간의 분위기를 결정하고, 감정을 이끌어냅니다. 모델은 단순히 읽는 것이 아니라, 연기합니다.
오디오 태그를 활용하면 다양한 감정과 신체 반응을 연출할 수 있습니다:
태그를 조합해 미묘한 감정도 표현할 수 있습니다: “[NERVOUSLY] 저... 정말 될지 모르겠어요. [GULPS] 그래도 한번 해볼게요.”
Eleven v3는 더 깊은 맥락 이해 모델로 이러한 태그를 지원합니다. 한 문장 안에서도 톤을 바꾸고, 중간에 끊기거나 흐름을 유지하는 등, 스크립트를 다시 쓰지 않아도 훨씬 자연스러운 전달이 가능합니다.
보이스 디자이너, 게임 개발자, 스토리텔러에게 새로운 창작의 도구가 열립니다. 이제 단순히 대사를 쓰는 것이 아니라, 연출까지 할 수 있습니다.
현재 프로페셔널 음성 복제(PVC)는 Eleven v3에 완전히 최적화되어 있지 않아, 이전 모델보다 복제 품질이 낮을 수 있습니다. v3 기능이 필요한 경우, 연구 프리뷰 단계에서는 인스턴트 음성 복제(IVC)나 디자인된 보이스를 사용하는 것이 좋습니다. PVC의 v3 최적화는 곧 제공될 예정입니다.



