
존재하지 않는 목소리 - 생성형 음성 AI
- 카테고리
- 연구
- 날짜
지난 글에서는 저희 음성 합성 도구로 생성한 장문의 샘플을 몇 가지 소개하고, 저희 모델만의 독특한 설계가 어떻게 자연스럽고 로봇 같지 않은 음성을 만들어내는지 간단히 설명드렸습니다. 오늘은 그 어떤 모델보다도 감정 표현이 풍부하고 맥락을 잘 파악한다는 점을 보여드릴 예정입니다. 덕분에 듣는 재미가 높을 뿐만 아니라, 책이나 비디오 게임, 광고 등 다양한 분야에 활용하기에도 적합합니다.
저희 모델의 강점인 유창함과 올바른 억양은 방대한 학습 데이터(50만 시간 이상!)에서 비롯되지만, 핵심은 이 데이터를 어떻게 학습하느냐에 있습니다. 가장 기본적으로, 글에 담긴 감정을 이해하고, 화자가 기쁘거나, 화가 나거나, 슬프거나, 중립적으로 들려야 할지 스스로 판단하도록 설계되어 있습니다. 예시를 몇 가지 살펴보세요:
억양과 분위기의 모든 차이는 오직 텍스트에서만 비롯된 것으로, 다른 요소는 결과에 영향을 주지 않았습니다. 문장 부호와 단어의 의미가 어떻게 읽어야 할지 결정하는 데 중요한 역할을 하지만, 승리에 기뻐하는 화자의 경우처럼, 모델이 웃음소리처럼 일반적인 말이 아닌 소리도 자연스럽게 만들어냅니다(곧 저희 AI가 낼 수 있는 다양한 웃음소리 모음을 공개할 예정입니다!). 마찬가지로, 정말 재미있는 상황에서 화자가 즐거워할 때는 반응을 적절히 과장해서 표현합니다. 바로 ‘너무 웃겨’.
하지만 개별 단어의 의미만 아는 것으로는 충분하지 않습니다. 저희 모델은 각 발화가 놓인 더 넓은 상황도 민감하게 파악합니다. 앞뒤 문맥과의 연결을 통해 내용이 자연스러운지 판단합니다. 이런 넓은 시야 덕분에 여러 문장에 걸친 생각의 흐름을 하나의 감정 패턴으로 이어서 긴 문장도 자연스럽게 억양을 넣어 읽을 수 있습니다(이전 글의 긴 샘플에서 확인하실 수 있습니다). 또한 논리적인 실수를 방지하는 데도 도움이 됩니다. 예를 들어, ‘read’처럼 철자는 같지만 시제에 따라 의미가 달라지거나, ‘minute’처럼 시간 단위와 ‘아주 작은’이라는 뜻이 모두 있는 단어도 맥락에 따라 올바르게 해석합니다:
저희 플랫폼은 장문 콘텐츠에 최적화되어 있기 때문에, 모델이 글에서 자주 쓰이는 기호, 약어, 관용 표현을 어떻게 읽어야 할지, 혹은 문자 그대로 읽지 않아야 할지도 이해해야 합니다. 예를 들어, FBI, TNT, ATM은 UNESCO나 NASA와 다르게 발음해야 한다는 점을 알아야 합니다. 마찬가지로, $3tr은 글에서는 괜찮지만, 소리로 읽을 때는 ‘삼조 달러’.
이런 미묘한 차이를 구분하는 것은 매우 중요합니다. 저희의 목표는 생성 과정에서 사람의 개입을 최소화하는 것이기 때문입니다. 오디오북을 몇 분 만에 만들 수 있다고 해놓고, 누군가가 전체 오디오를 다 듣고 다시 텍스트를 고쳐야 한다면 의미가 없겠죠. 물론 저희는 발음 규칙을 계속 업데이트하고 있지만, 가끔 모델이 헷갈릴 수도 있습니다. 그래서 이제는 모델이 불확실한 부분을 표시해주는 시스템을 개발 중입니다. 이를 통해 사용자는 모델이 어려워한 부분을 바로 확인하고, 어떻게 읽어야 할지 직접 알려줄 수 있습니다.
지금까지 소개한 모든 기능은 저희 소프트웨어가 가장 다재다능한 AI 음성 도구가 되기 위한 과정입니다.
뉴스 퍼블리셔들은 오디오 콘텐츠를 늘리는 것이 구독자를 유지하는 데 효과적이라는 점을 이미 확인했습니다. 각 기사에 오디오를 추가하면, 독자들이 다른 일을 하면서도 내용을 들을 수 있다는 장점이 있습니다. 이런 퍼블리셔들은 성우를 고용하는데, 비용이 많이 들고 모든 기사에 적용하기 어렵습니다. 또는 기자가 직접 읽기도 하는데, 이 역시 시간과 비용이 많이 듭니다. 합성 음성으로 콘텐츠를 읽으면 비용은 절감되지만, 품질이 떨어지는 문제가 있습니다. 이제 ElevenLabs와 함께라면, 품질과 비용 모두 포기할 필요 없이 두 가지를 모두 누릴 수 있습니다.
또는 오디오북의 모든 등장인물에게 각각 감정이 담긴 보이스오버를 몇 분 만에 생성할 수도 있습니다. 이는 책을 새로운 방식으로 즐길 수 있을 뿐만 아니라, 학습에 어려움이 있는 분들에게도 큰 도움이 됩니다.
이제 비디오 게임 개발자들은 특정 캐릭터가 실제 성우를 쓸 만큼 중요한지 고민할 필요가 없습니다. 모든 NPC에게도 각자의 목소리와 개성을 부여할 수 있습니다.
광고 에이전시와 제작사도 이제 원하는 캠페인 분위기에 맞춰 보이스오버를 자유롭게 실험하고 조정할 수 있습니다. 스포츠 TV 채널이든, 명품 시계 브랜드든 상관없습니다. 원하는 배우의 목소리를 라이선스 받아 복제하면, 배우가 직접 오지 않아도 바로바로 수정이 가능합니다. 완전히 합성된 목소리를 쓸 경우, 음성 권리 비용도 걱정할 필요가 없습니다.
가상 비서도 음성 복제를 통해 사용자에게 익숙한 목소리로 말할 수 있고, 더욱 자연스러운 대화가 가능해집니다.
지금 여기에서 베타 플랫폼에 가입해 직접 사용해보세요. 저희는 계속해서 개선 중이며, 여러분의 피드백이 초기 단계에서 큰 도움이 됩니다. 즐겁게 이용해 주세요!