본문 바로가기

Eleven Multilingual v1 출시: 새로운 음성 합성 모델

최신 딥러닝 방식으로 더 많은 데이터와 연산 능력, 새로운 기술을 활용해 지금까지 가장 진보된 음성 합성 모델을 선보입니다.

Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

오늘 Eleven Multilingual v1을 출시하게 되어 매우 기쁩니다. 이 고도화된 음성 합성 모델은 7개의 새로운 언어를 지원합니다:프랑스어, 독일어, 힌디어, 이탈리아어, 폴란드어, 포르투갈어, 그리고 스페인어입니다. Eleven Monolingual v1을 기반으로, 이번 딥러닝 방식은 더 많은 데이터와 연산 능력, 그리고 새로운 기술을 적용해 점점 더 정교해진 모델을 완성했습니다. 텍스트의 뉘앙스를 이해하고 감정이 풍부한 음성을 제공합니다. 이번 발전으로 크리에이터, 게임 개발자, 퍼블리셔의 창작 영역이 넓어지고, 생성형 미디어를 활용해 더 현지화되고 접근성 높은, 창의적인 콘텐츠 제작이 가능해집니다.

새 모델은 모든 구독 플랜에서 이용 가능하며, 지금 Beta 플랫폼에서 바로 체험할 수 있습니다.

사용 방법은 음성 합성(Speech Synthesis) 패널 내 새로 추가된 드롭다운 메뉴에서 모델을 선택하면 됩니다.

연구 개요

이전 모델과 마찬가지로, 새 모델 역시 전적으로 자체 연구를 기반으로 개발되었습니다. Eleven 단일언어 v1이 맥락에 따라 전달 방식을 조절하고, 의도와 감정을 매우 사실적으로 전달하는 등 뛰어난 스토리텔링 도구로서의 강점을 그대로 유지합니다. 이러한 기능이 이제 다국어 데이터 학습을 통해 새롭게 지원되는 언어에도 확장되었습니다.

이 모델의 주목할 만한 특징은 다국어 텍스트를 인식하고 적절하게 발화할 수 있다는 점입니다. 이제 하나의 프롬프트로 여러 언어의 음성을 생성하면서도 각 화자의 고유한 음성 특성을 유지할 수 있습니다. 최상의 결과를 위해서는 한 언어로 프롬프트를 입력하는 것을 권장합니다. 모델이 여러 언어를 동시에 처리할 수 있지만, 추가적인 개선이 필요합니다.

새 모델은 VoiceLab의 다른 기능, 예를 들어 인스턴트 음성 복제(Instant Voice Cloning)와 보이스 디자인(Voice Design)과도 호환됩니다. 생성된 모든 음성은 원래의 말투와 억양 등 대부분의 특성을 모든 언어에서 유지할 수 있습니다.

다만, 모델에는 알려진 한계점이 있습니다: 숫자, 약어, 외래어는 다른 언어로 입력해도 가끔 영어로 발음될 수 있습니다. 예를 들어, 스페인어 프롬프트에 "11"이나 “radio”를 입력하면 영어식으로 발음될 수 있습니다. 개선이 진행 중이니, 약어나 숫자는 목표 언어로 철자를 풀어 입력하는 것을 권장합니다.

음성의 민주화

ElevenLabs는 모든 콘텐츠를 어떤 언어, 어떤 목소리로도 모두가 접근할 수 있게 하겠다는 꿈으로 시작했습니다. 저희 팀은 유럽, 아시아, 미국 등 다양한 곳에서 모였습니다. 팀과 세상이 점점 더 다국어 환경이 되어가면서, 인간 수준의 AI 음성을 모든 언어로 제공하겠다는 비전에 더욱 힘을 모으고 있습니다.

최신 텍스트 음성 변환(TTS) 모델은 이 비전을 실현하는 첫걸음입니다. 인간 수준의 AI 음성으로 사용자와 기업은 필요와 우선순위, 취향에 맞춰 오디오 콘텐츠를 직접 제작하고 맞춤화할 수 있습니다. 이는 이미 크리에이터, 소규모 기업, 독립 아티스트에게 기회의 장을 넓혀주고 있습니다. AI 오디오의 힘을 활용해 이제 누구나 대형 조직 못지않은 고품질 오디오 경험을 만들 수 있습니다.

이제 이러한 혜택은 다국어, 다문화, 교육 분야까지 확장됩니다. 사용자, 기업, 기관이 더 폭넓은 청중에게 공감되는 진짜 오디오를 제작할 수 있도록 돕습니다. 다양한 목소리, 억양, 언어를 제공함으로써 AI는 문화적 장벽을 허물고 글로벌 이해를 촉진합니다. ElevenLabs는 이런 접근성이 창의성, 혁신, 다양성을 더욱 키운다고 믿습니다.

콘텐츠 크리에이터가 다양한 청중과 소통하고자 할 때 이제 문화적 장벽을 허물고 모두가 함께할 수 있는 환경을 만들 수 있습니다.

게임 개발자퍼블리셔는 언어 장벽을 넘어 전 세계 이용자에게 몰입감 있고 현지화된 경험을 제공할 수 있습니다. 플레이어와 청취자와의 연결을 극대화하면서도 품질이나 정확성의 손실 없이 효율을 높일 수 있습니다.

교육 기관은 이제 다양한 사용자를 위해 목표 언어로 오디오 콘텐츠를 제작할 수 있습니다. 언어 이해력과 발음 능력 향상은 물론, 다양한 교수법과 학습 요구에도 대응할 수 있습니다.

접근성 기관은 시각 장애인이나 학습 장애가 있는 분들에게 덜 접근성 높은 자료를 더 쉽게 변환해 제공할 수 있습니다. 콘텐츠와 형식 모두에서 사용자에게 맞는 방식으로 지원할 수 있습니다.

지금도, 앞으로도 크리에이터와 개발자 여러분이 어떤 새로운 가능성을 펼칠지 기대하고 있습니다!

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요