본문 바로가기

보이스 디자인 - 오디오를 위한 최초의 생성형 AI

합성 음성을 만드는 최초의 생성형 모델이 출시되었습니다

지난달 예고했습니다 음성 생성을 위한 생성형 모델이 곧 출시된다고요. 드디어 출시되었고, 업계 최초의 모델입니다. 저희는 이것을 보이스 디자인이라고 부릅니다. 이 기능을 통해 성별, 나이, 억양 등 핵심 특성을 선택해 완전히 새로운 목소리를 직접 만들 수 있습니다. 같은 핵심 설정을 해도, 생성할 때마다 모델이 무작위성을 더해 매번 완전히 새로운 목소리가 탄생합니다. 보이스 디자인은 퍼블리셔와 크리에이터에게 가장 다양한 AI 스토리텔링 도구를 제공하기 위한 ElevenLabs의 노력 중 하나입니다.

보이스 디자인

보이스 디자인의 기반이 되는 모델은 음성 합성 및 음성 복제에 대한 ElevenLabs의 연구 결과입니다. 한편으로는, 음성을 위한 생성형 도구라는 아이디어도 늘 갖고 있었습니다. 생성형 텍스트-이미지, 챗봇 모델은 이미 실용적으로 쓰이고 있지만, 오디오를 위한 비슷한 도구는 없었습니다. 출시 이후로 더 많은 화자를 추가해 달라는 요청이 많았는데, 보이스 라이브러리에 수많은 목소리를 추가해 사용자가 일일이 들어보는 대신, 직접 화자를 만들고 무한한 다양성을 경험할 수 있도록 방향을 바꿨습니다.

음성 선택에 어느 정도의 제어권을 주는 것은 중요했습니다. 사용자들이 대본에 맞는 구체적인 음성 특성을 자주 원하기 때문입니다. 생성된 목소리가 모두 고유하도록 하는 것도 중요했는데, 많은 사용 사례에서 독점적인 목소리가 필요하거나 도움이 되기 때문입니다. 보이스 디자인으로 만들어진 목소리는 완전히 인공적으로 생성된 것으로, 실제 인물과는 무관합니다. 새로운 창작의 기회를 제공합니다.

활용 사례

기존의 음성 합성 도구로 손쉽게 글을 고품질 오디오로 변환하는 것에 더해, 도서 저자는 이제 보이스 디자인을 활용해 내레이션을 직접 조정하고, 각 캐릭터의 개성을 맞춤형 목소리로 표현할 수 있습니다.

뉴스 퍼블리셔가 오디오 콘텐츠에 도전할 때, 스토리에 어울리는 목소리가 필요합니다. 내레이터는 매체의 정체성과 연결되기 때문에, 적합한 보이스오버를 선택하는 일은 매우 중요하지만 자주 반복되지 않습니다. 보이스 디자인을 통해 퍼블리셔는 수많은 내레이터를 즉시 비교·선택할 수 있습니다. 또한 자신만의 목소리를 확보해, 오직 자신만 대표할 수 있다는 점에서 안심할 수 있습니다.

게임 개발자는 이제 특정 캐릭터에 녹음 비용을 들여야 할지 고민할 필요가 없습니다. 수만 명의 무음 NPC도 각자 개성 있는 목소리를 갖게 되어, 가상 세계의 몰입감을 한층 높일 수 있습니다.

다음 작품을 준비하는 콘텐츠 크리에이터이든, 회사 커뮤니케이션에 목소리를 입히려는 기업 담당자이든, 특정 용도와 청중에 맞는 생생하고 매력적인 오디오를 디자인할 수 있는 가능성은 이제 무한합니다.

에코시스템

보이스 디자인은 올해 선보일 내레이션 편집 기능 중 하나입니다. 다음으로는 스튜디오가 출시됩니다. 대용량 텍스트 구조화, 일시정지 삽입, 오디오 일부 재생성, 텍스트별 화자 지정 등 다양한 기능을 제공하는 새로운 워크스테이션입니다. 스튜디오는 3월 말 출시 예정이며, 올해 2분기에는 억양 편집 기능도 추가될 예정입니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요