
Eleven v3 오디오 태그: AI 오디오에 상황 인식 부여
- 카테고리
- 리소스
- 날짜
ElevenLabs의 오디오 태그로 AI 음성의 감정, 속도, 음향 효과를 제어할 수 있습니다.
이제 Eleven v3 출시로 오디오 프롬프트가 필수 스킬이 되었습니다. AI 음성이 말할 내용을 직접 입력하거나 붙여넣는 대신, 이제 새로운 기능인 오디오 태그를 활용해 감정부터 전달 방식까지 모두 제어할 수 있습니다.
Eleven v3는 알파 버전의 연구 프리뷰 모델입니다. 이전 모델보다 더 많은 프롬프트 엔지니어링이 필요하지만, 생성 결과는 놀랍습니다.
ElevenLabs 오디오 태그는 대괄호로 감싼 단어로, 새로운 Eleven v3 모델이 해석해 오디오 연출을 지시할 수 있습니다. 예를 들어 [excited], [whispers], [sighs]부터 [gunshot], [clapping], [explosion]까지 다양하게 사용할 수 있습니다.
오디오 태그를 활용하면 AI 음성의 소리, 비언어적 신호(톤, 멈춤, 속도 등)까지 원하는 대로 조절할 수 있습니다. 몰입감 있는 오디오북, 인터랙티브 캐릭터, 대화 중심 미디어 등 다양한 프로젝트에서 이 간단한 스크립트 도구로 감정과 전달 방식을 세밀하게 제어할 수 있습니다.
오디오 태그는 스크립트 어디에나 넣어 실시간으로 전달 방식을 바꿀 수 있습니다. 한 문장이나 스크립트 내에서 여러 태그를 조합해 사용할 수도 있습니다. 태그는 주요 카테고리로 나뉩니다:
이 태그로 음성의 감정 톤을 설정할 수 있습니다. 예를 들어 [sad], [angry], [happily], [sorrowful] 등을 단독 또는 조합해 사용할 수 있습니다.
이 태그는 톤과 연기 스타일에 더 가깝습니다. 볼륨이나 에너지를 조절해 절제된 장면이나 강렬한 장면을 연출할 수 있습니다. 예시: [whispers], [shouts], [x accent] 등.
자연스러운 말에는 반응이 포함됩니다. 예를 들어, 자연스럽고 즉흥적인 순간을 추가해 현실감을 높일 수 있습니다. 예시: [laughs], [clears throat], [sighs].
이 기능의 기반은 v3의 새로운 아키텍처입니다. 모델이 텍스트의 맥락을 더 깊이 이해해 감정 신호, 톤 변화, 화자 전환까지 자연스럽게 따라갑니다. 오디오 태그와 결합하면 기존 TTS보다 훨씬 더 풍부한 표현이 가능합니다.
이제 다중 화자 대화도 자연스럽게 만들 수 있습니다. 최소한의 프롬프트로 끼어들기, 분위기 전환, 대화의 뉘앙스까지 구현할 수 있습니다.
프로페셔널 음성 복제(PVC)는 현재 Eleven v3에 완전히 최적화되어 있지 않아 이전 모델보다 복제 품질이 낮을 수 있습니다. 연구 프리뷰 단계에서는 v3 기능이 필요하다면 인스턴트 음성 복제(IVC)나 디자인된 음성을 사용하는 것이 좋습니다. PVC의 v3 최적화는 곧 제공될 예정입니다.
Eleven v3는 ElevenLabs UI에서 사용할 수 있으며, 6월 말까지 80% 할인을 제공합니다. Eleven v3(알파)용 공개 API도 이용 가능합니다. 실험이든 대규모 적용이든, 지금이 새로운 가능성을 탐색할 기회입니다.
AI 음성이 단순히 읽는 것을 넘어 연기하도록 하려면 오디오 태그를 잘 활용해야 합니다. 저희가 준비한 7가지 간단한 실전 가이드에서 [속삭임], [조용히 웃음], 또는 [프랑스어 억양]와 같은 태그로 맥락, 감정, 속도, 다중 캐릭터 대화까지 하나의 모델로 연출하는 방법을 확인할 수 있습니다.
[속삭임], [소리침], 그리고 [한숨] 같은 태그로 Eleven v3가 상황에 맞게 반응합니다. 긴장감을 높이거나, 경고를 부드럽게 하거나, 서스펜스를 위해 멈추는 등 다양한 연출이 가능합니다.[해적 목소리]부터 [프랑스어 억양]까지, 태그 하나로 내레이션이 역할극으로 바뀝니다. 한 줄 안에서 캐릭터를 바꾸거나, 모델을 바꾸지 않고도 완벽한 캐릭터 연기를 연출할 수 있습니다.[한숨], [신남], 또는 [피곤함] 같은 신호로 순간순간 감정을 조절해 긴장, 안도, 유머를 더할 수 있습니다. 재녹음 없이도 가능합니다.[잠시 멈춤], [감탄], 또는 [극적인 톤] 같은 태그로 리듬과 강조를 조절해 AI 음성이 청취자를 자연스럽게 이끌 수 있습니다.[말 끊기], [겹쳐 말함] 또는 톤 전환으로 겹치는 대사와 빠른 대화를 연출할 수 있습니다. 하나의 모델로 여러 목소리, 한 번에 자연스러운 대화가 가능합니다.[잠시 멈춤], [급하게], 또는 [길게 끎] 같은 태그로 텍스트를 연기로 바꿀 수 있습니다.[미국식 억양], [영국식 억양], [미국 남부 억양] 등 다양한 억양을 모델 교체 없이 구현해 문화적으로 풍부한 음성을 만들 수 있습니다.


