
GCP 커밋 크레딧, 이제 ElevenLabs 음성 AI 모델에 사용 가능
- 카테고리
- 제품
- 날짜
보이스 체인저는 원래 음성 변환(Speech-to-Speech)으로 불렸습니다. AI 음성 에이전트 분야에서 '음성 변환'은 하나의 모델이 오디오 입력과 출력을 직접 처리하는 통합 아키텍처를 의미하기도 합니다. ElevenAgents는 고도화된 계단식 아키텍처를 플랫폼에 적용하고 있습니다. 자세히 알아보기: 계단식 vs 통합 모델.
텍스트 음성 변환에
감정 표현을 더 풍부하게.

커뮤니티 멤버가 직접 소개하는 사용법:
보이스 체인저의 또 다른 활용법은 말투나 억양의 ‘참고 예시’를 제공하는 것입니다. ElevenLabs의 TTS는 보통 억양을 잘 구현하지만, 때로는 세밀하게 조정하고 싶을 때가 있습니다. 이럴 때 보이스 체인저를 사용하면 원하는 문장의 억양을 직접 시연하고, 선택한 목소리로 똑같이 말하게 할 수 있습니다. 앞으로 보이스 체인저가 스튜디오에 직접 통합되면 이 기능이 더 편리해질 예정이며, 여러분이 원하는 대로 결과물을 정밀하게 편집할 수 있도록 돕는 것이 목표입니다.
연구
원본 음성을 목표 음성으로 변환하려면, 원본 음성의 내용을 목표 음성의 특성으로 표현해야 합니다. 얼굴 합성 앱처럼 두 사람의 얼굴을 섞어 하나의 이미지를 만드는 것과 비슷한 원리입니다.
이 과정은 얼굴 이미지를 가져와 그 특징을 매핑하는 것과 같습니다. 아래 예시의 마커는 바로 그 역할을 하며, 이 범위 안에서 다른 얼굴이 표현됩니다.
제품 및 최근 업데이트
기본 제공 목소리 변경
Eleven Turbo v2 & uLaw 8khz 포맷
Turbo v2는 ElevenLabs 팀이 수개월간 연구해 완성한 결과물입니다. 실시간 상호작용에 최적화되어 있지만, 다양한 용도에 사용할 수 있습니다. 또한 IVR 시스템을 위한 표준 (m)uLaw 8kHz 포맷도 지원합니다.
스튜디오는 이제 업계 표준 오디오북 제출 가이드라인(게인 조정, 다이내믹 컴프레션 등)을 지원합니다. 또한 스튜디오 프로젝트에 ISBN, 저자, 제목 등 메타데이터를 직접 삽입할 수 있습니다.
가장 많은 요청을 받은 기능 중 하나입니다. 지난달에는 영어 모델에서 IPA, CMU 사전을 활용한 발음 지정 SSML 태그를 지원하기 시작했습니다. 이제 스튜디오 UI에서도 발음 사전 기능이 추가되어, IPA, CMU, 단어 치환(별칭) 방식으로 발음을 지정한 파일을 업로드할 수 있습니다. 사전 파일은 업계 표준 오픈 .PLS
발음 사전 추가는 가장 많은 요청을 받은 기능 중 하나였습니다. 지난달에는 영어 모델에서 IPA, CMU 사전을 활용해 SSML 태그로 발음을 지정할 수 있도록 했습니다. 이제 스튜디오 UI에서도 발음 사전 기능이 제공되어, IPA, CMU, 단어 치환 방식으로 발음을 지정한 파일을 업로드할 수 있습니다. 사전 파일은 업계 표준 오픈 포맷인 .PLS 렉시콘 파일 포맷.
피드백이 있으시면 언제든 Discord로 연락해 주세요!여기에서 확인하세요.
원하는 방식으로 말하고, 완전히 다른 목소리로 전달되는 결과를 직접 들어보세요. 속삭임, 웃음, 억양, 미묘한 감정까지 모두 담아낼 수 있습니다.



