
ElevenLabs, 새로운 생성형 음성 AI 제품 출시 및 Nat Friedman, Daniel Gross, Andreessen Horowitz가 주도한 1,900만 달러 시리즈 A 투자 유치 발표
- 카테고리
- 회사
- 날짜
올해 INTERSPEECH 컨퍼런스에 다녀왔습니다. 그동안 준비해온 다양한 개발 성과를 직접 소개하고 피드백을 받을 수 있었던 최고의 기회였습니다.
업계 최고의 전문가들과 교류하며 배우고, 아이디어를 나누는 시간이 정말 뜻깊었습니다. 앞으로의 협력도 기대됩니다. 저희와 같은 분야에서 활동하는 멋진 스타트업 팀들, 특히 음성 복제, 텍스트 음성 변환(TTS), 음성 변환(VC) 분야의 Supertone, LOVO 등과도 만났습니다. 또한 Meta, Google과 같은 대형 기업들과도 TTS와 VC 소프트웨어 개발의 비하인드 스토리에 대해 이야기할 수 있어 매우 흥미로웠습니다.
본격적으로 비즈니스 이야기를 시작했습니다. 저희 기술에 대한 진심 어린 관심과 열정이 기대 이상이었고, 정말 기뻤습니다. 4일 동안 위에서 언급한 세 가지 음성 기술 분야에서의 연구와 발전 상황을 공유했습니다. 이는 저희가 독자적으로 개발 중인 자동 더빙 도구의 첫 번째 버전(1.0)을 내년 초 출시하기 위한 아주 중요한 첫걸음이었습니다.
여기서 저희에게 가장 중요한 것은 음성을 얼마나 충실하게 복제할 수 있는지, 즉 알고리즘이 학습한 원본 음성과 합성된 음성 간의 유사성을 얼마나 잘 유지할 수 있는지를 증명하는 것이었습니다. 그리고 두 번째로, 저희 TTS 도구가 최고의 운율과 음색을 제공하여 가장 인간적이고 자연스러운 합성 음성 플랫폼으로 나아가고 있음을 보여주는 것도 매우 중요했습니다.
전자는 새로 생성된 음성이 특정 인물의 목소리로 쉽게 인식될 수 있어야 하므로 당연히 중요합니다. 즉, 화자 식별이 정확히 보존되어야 합니다. 운율과 음색은 말의 의도를 전달하는 데 중요한 요소이기 때문에, 이것이 바로 음성이 인간답게 들리는 핵심입니다. 궁극적으로는 프로그램이 단어를 유창하게 발음하는 것뿐만 아니라, 적절한 감정까지 담아내어 마치 의미를 이해하고 있는 것처럼 들리는 것이 목표입니다.무엇을 말하는지.
아래에서 컨퍼런스에서 사용한 TTS 데모를 확인할 수 있습니다. 첫 번째 링크는 원본 영상이고, 그 다음은 같은 메시지를 다른 목소리로 전달한 저희 샘플입니다. 참고로, 이것은 텍스트 음성 변환(TTS)입니다. 음성 변환(VC)이 아닙니다. 저희가 입력한 것은 원본 영상에서 말한 내용을 텍스트로 적은 것뿐이며, 들리는 음성은 모두 알고리즘이 생성한 것입니다. 운율과 억양도 모두 알고리즘이 처리하며, 별도의 후처리는 없습니다. 누구의 목소리인지 맞혀보세요!
텍스트 입력으로 음성을 생성하는 Eleven TTS 기술에 대한 자세한 내용은 다음 글에서 소개할 예정입니다.
저희 기술이 마음에 들고 베타 테스터가 되고 싶으시다면, 아래에서 신청하실 수 있습니다. 여기 클릭.
원본:
Eleven Labs 음성 복제 TTS:
컨퍼런스 전 몇 달 동안 저희는 기술 시연 샘플을 만들고 독자적인 연구 결과를 보여주는 데 거의 모든 노력을 집중했습니다. INTERSPEECH가 연구 중심의 컨퍼런스인 만큼, 특히 이런 자리에서는 형식보다 내용이 우선되어야 한다고 생각했기 때문입니다. 하지만 컨퍼런스 당일에는 저희가 기술에만 집중하다 보니 브랜드 부스가 너무 미니멀해 보였던 것 같다고 농담을 하기도 했습니다. 다행히도, 대형 기업을 포함한 다른 참가자들도 소박한 부스를 선택한 것을 보고 안도할 수 있었습니다.
한국에서의 이번 경험은 ElevenLabs에게 큰 성공이었고, 앞으로 더 열심히 나아갈 수 있는 동기부여가 되었습니다. 내년에는 연구와 발표 모두에서 더 큰 발전을 이룰 수 있을 것 같아 벌써부터 기대됩니다. 그때쯤이면 실제 서비스에 적용할 수 있는 더빙 도구도 준비되어, 더 많은 사람들이 다양한 언어로 자신의 목소리로 말할 수 있게 되길 바랍니다.