존재하지 않는 목소리 - 생성형 음성 AI
- 게시일
최근 생성형 AI에 대한 이야기가 끊이지 않고 있습니다. ChatGPT, Stable Diffusion, DALL-E, Midjourney와 같은 딥러닝 기반의 대형 언어 및 텍스트-이미지 모델이 기술 업계는 물론 다양한 분야에서 큰 화제를 모으고 있습니다. 많은 사람들이 이를 AI 분야의 가장 중요한 최근 발전 중 하나로 꼽고 있습니다. 동의하든 아니든, 대체로 매우 강력한 무언가가 등장했다는 분위기입니다. 2023년에는 그림을 그리거나 영상을 만드는 데 도움을 주는 모델에 대한 소식도 들려올 것입니다. 최신 스마트폰을 묻듯, 곧 최신의 강력한 기반 모델에 대해 묻게 될 것입니다. 하지만 이런 열기 속에서도 생성형 미디어 분야에서 아직 충분히 주목받지 못한 영역이 있다고 생각합니다. 바로 음성 AI입니다. 이 분야에서 ElevenLabs는 선두가 되고자 합니다. ElevenLabs는 매일 딥러닝 기술이 가진 잠재력을 활용해 실제와 같은 텍스트 음성 변환 및 음성 복제 도구를 제공합니다. 이제는 완전히 새로운 합성 음성을 처음부터 직접 디자인할 수 있는 자체 생성 모델도 선보입니다.
음성 생성기 - 나만의 목소리 디자인
사용자들은 매일 플랫폼에서 자신만의 캐릭터에 생명을 불어넣고 있습니다. 오디오북,
이 방법을 고민하게 된 계기는 현재 음성 합성 및 음성 복제에 사용하는 방식을 분석하면서 떠올랐습니다. 두 과정 모두 특정 목소리의 특징을 인코딩하는 방법이 필요합니다. 화자 임베딩(speaker embedding)이 바로 이 정체성을 담고 있는데, 이는 화자의 목소리를 벡터로 표현한 것입니다. 전용 모델을 학습시켜 화자 임베딩 분포에서 샘플링하면 무한히 많은 새로운 목소리를 만들 수 있다는 점을 깨달았습니다.
대부분의 사용자가 특정 음성 특성을 원하기 때문에, 생성 과정에 어느 정도 제어 기능을 추가해야 했습니다. 그래서 목소리의 특징을 기반으로 음성을 생성할 수 있도록 모델에 조건부 생성 기능을 더했습니다. 이제 모델에서 성별, 나이, 억양, 음높이, 말투 등 기본적인 파라미터를 설정해 새로운 목소리의 핵심 정체성을 정할 수 있습니다. 즉, 같은 기본 파라미터를 선택하더라도 ‘생성’ 버튼을 누를 때마다 이전에 존재하지 않았던 완전히 새로운 목소리가 만들어집니다.
아래는 이런 방식으로 디자인할 수 있는 목소리 예시입니다:
'음성 디자인' 기능은 2월 중 보이스 랩(Voice Lab)에서 제공될 예정입니다.
어디에 쓸 수 있을까요?
이미 ElevenLabs의 도구로 실제 사람과 구분하기 어려운 자연스러운 음성을 만들 수 있으며, 인공 음성의 활용 분야는 앞으로 더욱 넓어질 것입니다. 뉴스 기사나 광고용 오디오 녹음 등 새로운 활용 사례에서는 한 목소리가 특정 브랜드나 용도에만 사용되고, 다른 곳에서는 쓰이지 않아야 할 필요가 있습니다. 반면, 스토리텔링이나 비디오 게임처럼 개발 초기부터 다양한 시도와 자유로운 실험이 중요한 분야도 있습니다. 그래서 수많은 가상 화자를 미리 만들어두는 대신, 사용자가 직접 목적에 맞는 목소리를 선택하고 디자인할 수 있도록 했습니다.
도서 저자는 이제 손쉽게 자신의 작품을 오디오로 변환할 수 있을 뿐 아니라, 원하는 스타일의 내레이션을 직접 디자인할 수 있습니다. 이를 통해 독자들은 새로운 방식으로 책을 접할 수 있고, 우리가 즐길 수 있는 오디오북의 수도 크게 늘어날 것입니다.
뉴스 미디어는 오디오 콘텐츠로 점점 더 확장하고 있으며, 각 매체를 대표할 개성 있는 목소리를 선택하는 것이 중요해졌습니다. 많은 청취자들이 내용뿐 아니라 전달 방식도 중요하게 생각하기 때문입니다. 또한, 이제 특정 목소리가 오직 해당 매체만을 대표한다는 점도 확실히 할 수 있습니다.
비디오 게임 개발자는 이제 다양한 NPC(비플레이어 캐릭터)에게 손쉽게 목소리를 입힐 수 있습니다. 품질을 유지하면서도 비용을 절감할 수 있고, 자신이 만든 가상 세계에만 존재하는 독특한 목소리도 직접 디자인할 수 있습니다.
광고 크리에이티브는 캠페인별로 어울리는 보이스오버가 필요합니다. 개발 초기부터 목적에 맞는 내레이션을 직접 디자인할 수 있다는 점은 큰 장점입니다. 여러 목소리와 전달 방식을 즉시 실험해볼 수 있고, 추가 자원 없이도 다양한 시도를 할 수 있습니다.
크리에이터가 다양한 오디오 및 비디오 콘텐츠를 제작하거나 기업 임원이 사내 커뮤니케이션에 목소리를 입히는 등, 특정 목적에 맞춘 독창적이고 매력적인 오디오를 디자인할 수 있는 기회가 무한히 열려 있습니다.
윤리적 AI
음성 복제 기술이 오용될 수 있다는 우려처럼, AI 기술의 확산이 전문가들의 일자리를 위협할 것이라는 걱정도 커지고 있습니다. ElevenLabs는 성우가 자신의 목소리를 특정 용도의 음성 모델 학습에 라이선스하고, 그 대가를 받을 수 있는 미래를 그리고 있습니다. 고객과 스튜디오는 여전히 프로젝트에 전문 성우를 기꺼이 참여시킬 것이며, AI는 개발 초기 방향 설정과 빠른 작업에 도움을 줄 뿐입니다. 이 기술은 음성 오디오의 제작 및 녹음 방식을 바꿀 것이지만, 성우가 매번 직접 녹음실에 가지 않아도 되기 때문에 더 많은 프로젝트에 동시에 참여하고, 자신의 목소리를 영원히 남길 수 있게 됩니다.
무엇보다도, 이제까지 저자나 개발자가 녹음 비용 때문에 시도하지 못했던 수많은 책, 뉴스, 인디 게임 등 다양한 콘텐츠가 새로운 방식으로 제공될 수 있다는 점이 기대됩니다. 접근성이 높아지면, 각 분야의 청중도 더 넓어질 것입니다.
ElevenLabs는 지적 재산권을 존중하고, 기술 오용을 방지하기 위한 안전장치 마련에도 최선을 다하고 있습니다:
- 불법적이거나 해로운 목적으로 기술을 악용하는 것을 금지하는 약관을 준수하는 고객과만 파트너십을 맺고 있습니다;
- 모델로 생성된 모든 오디오에 워터마크를 삽입해, 즉시 ElevenLabs로 추적할 수 있도록 준비 중입니다;
- 인식 가능한 목소리를 사용할 때는 시연 목적에 한하며, 이해 상충이 발생하지 않는 맥락에서만 사용합니다;
- 동시에, 목소리 소유자와 라이선스 제공자가 권리를 주장할 수 있도록 지원하며, 모든 침해 사례는 검토 후 조치합니다.
앞으로 - 내 목소리 업그레이드
앞으로는 음성 생성 및 음성 복제 모델을 결합해, 사용자가 자신의 목소리를 더욱 업그레이드할 수 있도록 할 계획입니다. 자신의 목소리를 복제한 뒤 원하는 효과로 자유롭게 변형할 수 있습니다. 자연스러운 말투가 단조롭다고 느껴진다면 다양한 스타일을 추가할 수 있고, 녹음되는 것이 부담스럽다면 결과물을 더 자연스럽게 바꿀 수도 있습니다. 프리젠테이션이나 오디오 메시지 등 어떤 목적으로든 자신의 목소리가 들어간 오디오를 만들어야 할 때, ElevenLabs의 도구로 버튼 한 번만 누르면 바로 제작할 수 있습니다.
새해 복 많이 받으세요
2022년 한 해를 마무리하며, 베타 사용자 여러분의 꾸준한 참여와 소중한 피드백에 감사드립니다. 여러분의 의견 덕분에 많은 기능이 개발되고 있습니다. 여러분과 함께할 수 있어 정말 기쁘며, 모두 새해 복 많이 받으시길 바랍니다.
ElevenLabs 베타
바로가기 여기에서 베타 플랫폼에 가입해 직접 체험해보세요. ElevenLabs는 지속적으로 개선 중이며, 초기 단계에서 여러분의 의견이 큰 도움이 됩니다.
.webp&w=3840&q=80)
.webp&w=3840&q=80)


