본문 바로가기

음성 변환

한 사람의 목소리를 다른 사람의 목소리로 바꾸기

A man wearing glasses and headphones speaking into a microphone, smiling.

음성 변환이란?

음성 변환은 한 사람의 목소리를 다른 사람의 목소리로 바꿔줍니다. 음성 복제라는 과정을 통해 변환할 대상의 목소리를 인코딩하고, 원래의 억양은 살리면서 대상 화자의 정체성을 반영해 같은 메시지를 생성합니다.

활용 사례

고품질 음성 변환과 음성 복제 기술은 다양한 산업에서 콘텐츠 제작, 전달, 상호작용 방식을 혁신할 잠재력을 가지고 있습니다. 제작 시간과 비용을 최적화하고, 자신의 목소리를 제공해 알고리즘을 훈련시키는 분들에게는 수동적인 수익 창출 기회를 제공합니다.

  • 영화 제작에서는 배우가 직접 현장이나 스튜디오에 가지 않아도, 목소리 데이터베이스를 제작자와 공유해 오디오 트랙을 만들 수 있습니다.
  • 잘못 말한 대사도 후반 작업에서 훨씬 효과적으로 다시 녹음할 수 있습니다.
  • 이 기술은 역사적 인물의 목소리를 허구의 상황에서 재현하거나, 이미 고인이 된 배우의 목소리를 다시 들려주는 데에도 활용할 수 있습니다.
  • 비디오 게임 개발에서도 마찬가지로, 대사를 수정하거나 실험해볼 때 배우가 직접 녹음하러 오지 않아도 바로 적용할 수 있습니다.
  • 의료 분야에서는 예를 들어 후두암 치료 등으로 말하는 능력을 잃은 환자들이 자신의 목소리로 다시 소통할 수 있는 기회를 얻을 수 있습니다.
  • 가상 비서는 집에서 사용하는 분들이 낯선 목소리 대신 가족이나 지인의 목소리로 더 자연스럽게 대화할 수 있도록 개인화될 수 있습니다.
  • 반대로 광고 업계에서는 실제 사람처럼 들리지만 권리 문제나 저작권료 걱정이 없는 합성 보이스오버를 도입해 이점을 얻을 수 있습니다. 반면, 특정 배우의 인지 가능한 목소리가 필요한 경우에도, 광고 제작자는 동의 하에 해당 배우의 목소리를 복제해 긴 녹음 세션 없이도 사용할 수 있습니다.
  • 오디오북과 팟캐스트 산업 역시 음성 복제와 음성 변환 기술을 적용해 몰입감 있는 콘텐츠 제작과 편집을 최적화할 수 있는 성장 분야입니다.

ElevenLabs 음성 변환

ElevenLabs에서는 다양한 도구의 일부로 음성 변환 소프트웨어를 개발하고 있지만, 음성 복제와 음성 합성에 대한 연구는 내년 초 출시 예정인 저희의 주요 제품, 즉 화자의 정체성을 보존하는 자동 더빙 도구 개발에 주로 활용되고 있습니다.

저희의 목표는 모든 음성 콘텐츠를 원래 화자의 목소리로, 버튼 한 번만으로 여러 언어로 접근할 수 있게 만드는 것입니다. 예를 들어 영어로 된 교육용 유튜브 영상이 있다고 가정해보세요. 만약 누군가가 스페인어만 할 줄 안다면(그리고 언어만 알았다면 흥미롭게 볼 수 있을 텐데), 그건 문제입니다. 자막도 하나의 해결책이지만, 저희는 훨씬 더 몰입감 있고 재미있게 콘텐츠를 즐길 수 있는 방법을 제공하고자 합니다. 실제로 스페인어를 못하더라도, 같은 사람이 같은 메시지를 자연스럽게 원어민 수준의 스페인어로 말하는 것을 생성하고 싶습니다.

이를 위해 음성 복제는 화자의 정체성, 즉 목소리의 고유한 소리를 보존할 수 있게 해줍니다. 이 기술을 활용해 다른 언어로도 마치 같은 사람이 말하는 것처럼 새로운 발화를 생성할 수 있습니다.

음성 변환은 감정, 의도, 전달 방식을 최대한 몰입감 있게 보존하기 위해 필요합니다. 저희는 다양한 언어를 지원하는 강력한 모델을 훈련시켜, 원본 언어의 발화를 분석하고 올바른 억양으로 대상 언어에 매핑할 수 있도록 합니다.

과정

한 사람의 목소리를 다른 사람의 목소리로, 즉 원본 음성을 대상 음성으로 변환하려면, 원본 음성의 내용을 대상 음성의 특성으로 표현할 수 있는 알고리즘이 필요합니다. 여기서 좋은 비유는 얼굴 합성 앱입니다. 내 얼굴과 다른 사람의 얼굴을 합쳐 두 사람의 특징이 모두 담긴 이미지를 만드는 것과 비슷합니다.

이 과정은 얼굴 이미지를 가져와 특징을 매핑하는 것과 같습니다. 아래 예시의 점들은 바로 그 역할을 합니다. 이 점들은 다른 얼굴의 특징이 표현될 수 있는 경계입니다.

음성 변환에서는 알고리즘이 대상 음성의 특성을 인코딩할 수 있어야 합니다. 알고리즘은 해당 음성의 다양한 예시로 구성된 데이터셋을 학습합니다. 이 샘플들을 아주 기본적인 수준, 즉 '음성의 원자'로 분해합니다. 음성은 문장으로 이루어지고, 문장은 단어로, 단어는 음소로 구성됩니다. 이 음소들이 대상 음성의 특성을 나타내며, 알고리즘은 이 기본 단위에서 작동합니다.

음성 변환의 핵심은 원본 음성의 내용을 대상 음성의 음소로 표현하는 것입니다. 하지만 얼굴 합성 예시처럼 여기에도 균형이 필요합니다. 한 얼굴의 특징을 매핑하는 점이 많을수록, 그 안에 들어가는 얼굴에 더 많은 제약이 생깁니다. 점이 적으면 제약도 줄어듭니다. 음성 변환도 마찬가지입니다. 대상 음성에 더 많은 비중을 두면 원본 음성과의 싱크가 어긋날 위험이 커집니다. 반대로 비중을 너무 적게 두면 대상 음성의 특징을 잃게 됩니다. 예를 들어, 누군가가 화를 내며 소리치는 녹음을 모건 프리먼의 목소리로 변환한다면 문제가 생길 수 있습니다. 원본 음성의 감정에 너무 집중하면 진짜 모건 프리먼이 말하는 것 같은 느낌이 사라지고, 그의 말투에 너무 집중하면 원본의 감정이 약해집니다.

윤리

음성 복제에 대한 윤리적 우려는 기술 오남용 가능성이 커지면서 점점 더 많은 사람들이 걱정하고 있습니다. 2020년에는 사기범들이 CEO를 사칭해 전화로 3,500만 달러의 은행 송금을 승인받는 데 오디오 딥페이크를 사용한 사례도 있었습니다. 누군가 실제로 하지 않은 말을 한 것처럼 들리게 만드는 기술은 허위 정보 유포, 명예 훼손, 사기 등에 악용될 수 있다는 두려움을 불러일으킵니다. 마찬가지로, 음성 변환이 목소리 소유자의 동의 없이 생성된 콘텐츠로 수익을 얻을 수 있게 한다면 저작권 침해 문제도 제기됩니다.

ElevenLabs는 저희 기술이 악의적으로 사용되지 않도록, 그리고 위험으로부터 보호할 수 있는 안전장치를 마련하기 위해 최선을 다하고 있습니다:

  • 저희는 허위 정보 유포, 명예 훼손, 사기, 불법 또는 유해한 목적으로 기술을 악용하는 것을 금지하는 약관을 준수하는 고객과만 파트너십을 맺습니다.
  • ElevenLabs에서 제작한 합성 영상 콘텐츠에는 AI 생성임을 명확히 알리는 워터마크가 포함되어 있습니다. 오디오 콘텐츠에도 명확한 파일 설명이 들어갑니다. 인지 가능한 목소리를 사용할 때는 시연 목적이거나 이해 상충이 발생하지 않는 맥락에서만 사용합니다.
  • 동시에, 목소리 소유자와 라이선스 보유자가 권리를 주장할 수 있도록 지원하고 있습니다.
  • 저희의 입장을 개선할 수 있는 아이디어가 있다면 언제든 ethics@elevenlabs.io

저희는 오남용에 대한 두려움이 강력한 신기술에 대한 태도를 결정짓는 유일한 기준이 되어서는 안 된다고 생각합니다. 오히려 개발 단계에서부터 적절한 안전장치를 마련해 위험을 최소화하면서, 기술이 사회 전체에 제공할 수 있는 잠재력을 최대한 활용해야 한다고 믿습니다.

미래

음성 변환과 음성 복제 기술은 영화, TV, 콘텐츠 제작, 게임 개발, 팟캐스트, 오디오북, 광고 산업을 혁신할 것입니다. 하지만 이 기술의 활용은 상업적 영역을 넘어 의료, 교육, 커뮤니케이션 등 다양한 분야로 확장될 수 있습니다.

음성 복제는 어떤 콘텐츠든 어떤 언어와 목소리로도 생성해 전 세계 수백만 명에게 전달하고, 완전히 새로운 경제를 만들어갈 미래를 열고 있습니다. ElevenLabs는 이 미래를 실현하는 데 기여하고자 합니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요