본문 바로가기

존재하지 않는 목소리 - 생성형 음성 AI

사용자가 완전히 새로운 합성 음성을 직접 디자인할 수 있는 자체 생성 모델을 제공합니다

Abstract colorful swirl with dropdown menus for gender, age, and accent, and a style, clarity, and stability slider.

최근 생성형 AI에 대한 이야기가 끊이지 않고 있습니다. ChatGPT, Stable Diffusion, DALL-E, Midjourney와 같은 딥러닝 기반의 대형 언어 및 텍스트-이미지 모델이 기술 업계는 물론 다양한 분야에서 큰 화제를 모으고 있습니다. 많은 사람들이 이를 AI 분야의 가장 중요한 최근 발전 중 하나로 꼽고 있습니다. 동의하든 아니든, 대체로 매우 강력한 무언가가 등장했다는 분위기입니다. 2023년에는 그림을 그리거나 영상을 만드는 데 도움을 주는 모델에 대한 소식도 들려올 것입니다. 최신 스마트폰을 묻듯, 곧 최신의 강력한 기반 모델에 대해 묻게 될 것입니다. 하지만 이런 열기 속에서도 생성형 미디어 분야에서 아직 충분히 주목받지 못한 영역이 있다고 생각합니다. 바로 음성 AI입니다. 이 분야에서 ElevenLabs는 선두가 되고자 합니다. ElevenLabs는 매일 딥러닝 기술이 가진 잠재력을 활용해 실제와 같은 텍스트 음성 변환음성 복제 도구를 제공합니다. 이제는 완전히 새로운 합성 음성을 처음부터 직접 디자인할 수 있는 자체 생성 모델도 선보입니다.

음성 생성기 - 나만의 목소리 디자인

오디오북, 게임, 팬픽션 등 다양한 콘텐츠를 위해 매일 많은 사용자가 ElevenLabs 플랫폼에서 캐릭터에 생명을 불어넣고 있습니다. 하지만 현재 제공되는 화자 수가 충분하지 않아, 모든 사용자가 원하는 목소리를 찾기 어렵다는 점을 알게 되었습니다. 그래서 완전히 새로운 합성 음성을 직접 디자인할 수 있도록 했습니다.

이 방법을 고민하게 된 계기는 현재 음성 합성 및 음성 복제에 사용하는 방식을 분석하면서 떠올랐습니다. 두 과정 모두 특정 목소리의 특징을 인코딩하는 방법이 필요합니다. 화자 임베딩(speaker embedding)이 바로 이 정체성을 담고 있는데, 이는 화자의 목소리를 벡터로 표현한 것입니다. 전용 모델을 학습시켜 화자 임베딩 분포에서 샘플링하면 무한히 많은 새로운 목소리를 만들 수 있다는 점을 깨달았습니다.

대부분의 사용자가 특정 음성 특성을 원하기 때문에, 생성 과정에 어느 정도 제어 기능을 추가해야 했습니다. 그래서 목소리의 특징을 기반으로 음성을 생성할 수 있도록 모델에 조건부 생성 기능을 더했습니다. 이제 모델에서 성별, 나이, 억양, 음높이, 말투 등 기본적인 파라미터를 설정해 새로운 목소리의 핵심 정체성을 정할 수 있습니다. 즉, 같은 기본 파라미터를 선택하더라도 ‘생성’ 버튼을 누를 때마다 이전에 존재하지 않았던 완전히 새로운 목소리가 만들어집니다.

아래는 이런 방식으로 디자인할 수 있는 목소리 예시입니다:

'음성 디자인' 기능은 2월 중 보이스 랩(Voice Lab)에서 제공될 예정입니다.

어디에 쓸 수 있을까요?

이미 ElevenLabs의 도구로 실제 사람과 구분하기 어려운 자연스러운 음성을 만들 수 있으며, 인공 음성의 활용 분야는 앞으로 더욱 넓어질 것입니다. 뉴스 기사나 광고용 오디오 녹음 등 새로운 활용 사례에서는 한 목소리가 특정 브랜드나 용도에만 사용되고, 다른 곳에서는 쓰이지 않아야 할 필요가 있습니다. 반면, 스토리텔링이나 비디오 게임처럼 개발 초기부터 다양한 시도와 자유로운 실험이 중요한 분야도 있습니다. 그래서 수많은 가상 화자를 미리 만들어두는 대신, 사용자가 직접 목적에 맞는 목소리를 선택하고 디자인할 수 있도록 했습니다.

도서 저자는 이제 손쉽게 자신의 작품을 오디오로 변환할 수 있을 뿐 아니라, 원하는 스타일의 내레이션을 직접 디자인할 수 있습니다. 이를 통해 독자들은 새로운 방식으로 책을 접할 수 있고, 우리가 즐길 수 있는 오디오북의 수도 크게 늘어날 것입니다.

뉴스 미디어는 오디오 콘텐츠로 점점 더 확장하고 있으며, 각 매체를 대표할 개성 있는 목소리를 선택하는 것이 중요해졌습니다. 많은 청취자들이 내용뿐 아니라 전달 방식도 중요하게 생각하기 때문입니다. 또한, 이제 특정 목소리가 오직 해당 매체만을 대표한다는 점도 확실히 할 수 있습니다.

비디오 게임 개발자는 이제 다양한 NPC(비플레이어 캐릭터)에게 손쉽게 목소리를 입힐 수 있습니다. 품질을 유지하면서도 비용을 절감할 수 있고, 자신이 만든 가상 세계에만 존재하는 독특한 목소리도 직접 디자인할 수 있습니다.

광고 크리에이티브는 캠페인별로 어울리는 보이스오버가 필요합니다. 개발 초기부터 목적에 맞는 내레이션을 직접 디자인할 수 있다는 점은 큰 장점입니다. 여러 목소리와 전달 방식을 즉시 실험해볼 수 있고, 추가 자원 없이도 다양한 시도를 할 수 있습니다.

크리에이터가 다양한 오디오 및 비디오 콘텐츠를 제작하거나 기업 임원이 사내 커뮤니케이션에 목소리를 입히는 등, 특정 목적에 맞춘 독창적이고 매력적인 오디오를 디자인할 수 있는 기회가 무한히 열려 있습니다.

윤리적 AI

음성 복제 기술이 오용될 수 있다는 우려처럼, AI 기술의 확산이 전문가들의 일자리를 위협할 것이라는 걱정도 커지고 있습니다. ElevenLabs는 성우가 자신의 목소리를 특정 용도의 음성 모델 학습에 라이선스하고, 그 대가를 받을 수 있는 미래를 그리고 있습니다. 고객과 스튜디오는 여전히 프로젝트에 전문 성우를 기꺼이 참여시킬 것이며, AI는 개발 초기 방향 설정과 빠른 작업에 도움을 줄 뿐입니다. 이 기술은 음성 오디오의 제작 및 녹음 방식을 바꿀 것이지만, 성우가 매번 직접 녹음실에 가지 않아도 되기 때문에 더 많은 프로젝트에 동시에 참여하고, 자신의 목소리를 영원히 남길 수 있게 됩니다.

무엇보다도, 이제까지 저자나 개발자가 녹음 비용 때문에 시도하지 못했던 수많은 책, 뉴스, 인디 게임 등 다양한 콘텐츠가 새로운 방식으로 제공될 수 있다는 점이 기대됩니다. 접근성이 높아지면, 각 분야의 청중도 더 넓어질 것입니다.

ElevenLabs는 지적 재산권을 존중하고, 기술 오용을 방지하기 위한 안전장치 마련에도 최선을 다하고 있습니다:

  • 불법적이거나 해로운 목적으로 기술을 악용하는 것을 금지하는 약관을 준수하는 고객과만 파트너십을 맺고 있습니다;
  • 모델로 생성된 모든 오디오에 워터마크를 삽입해, 즉시 ElevenLabs로 추적할 수 있도록 준비 중입니다;
  • 인식 가능한 목소리를 사용할 때는 시연 목적에 한하며, 이해 상충이 발생하지 않는 맥락에서만 사용합니다;
  • 동시에, 목소리 소유자와 라이선스 제공자가 권리를 주장할 수 있도록 지원하며, 모든 침해 사례는 검토 후 조치합니다.

앞으로 - 내 목소리 업그레이드

앞으로는 음성 생성 및 음성 복제 모델을 결합해, 사용자가 자신의 목소리를 더욱 업그레이드할 수 있도록 할 계획입니다. 자신의 목소리를 복제한 뒤 원하는 효과로 자유롭게 변형할 수 있습니다. 자연스러운 말투가 단조롭다고 느껴진다면 다양한 스타일을 추가할 수 있고, 녹음되는 것이 부담스럽다면 결과물을 더 자연스럽게 바꿀 수도 있습니다. 프리젠테이션이나 오디오 메시지 등 어떤 목적으로든 자신의 목소리가 들어간 오디오를 만들어야 할 때, ElevenLabs의 도구로 버튼 한 번만 누르면 바로 제작할 수 있습니다.

새해 복 많이 받으세요

2022년 한 해를 마무리하며, 베타 사용자 여러분의 꾸준한 참여와 소중한 피드백에 감사드립니다. 여러분의 의견 덕분에 많은 기능이 개발되고 있습니다. 여러분과 함께할 수 있어 정말 기쁘며, 모두 새해 복 많이 받으시길 바랍니다.

ElevenLabs 베타
바로가기 여기에서 베타 플랫폼에 가입해 직접 체험해보세요. ElevenLabs는 지속적으로 개선 중이며, 초기 단계에서 여러분의 의견이 큰 도움이 됩니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요