보이스 체인저 소개

게시일: 2023년 11월 22일

듣기이 기사 오디오로 듣기

0:00

0:000:00

보이스 체인저는 원래 음성 변환(Speech-to-Speech)으로 불렸습니다. AI 음성 에이전트 분야에서 '음성 변환'은 하나의 모델이 오디오 입력과 출력을 직접 처리하는 통합 아키텍처를 의미하기도 합니다. ElevenAgents는 고도화된 계단식 아키텍처를 플랫폼에 적용하고 있습니다. 자세히 알아보기: 계단식 vs 통합 모델.

텍스트 음성 변환에

이렇게 하면

감정 표현을 더 풍부하게.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

커뮤니티 멤버가 직접 소개하는 사용법:

보이스 체인저의 또 다른 활용법은 말투나 억양의 ‘참고 예시’를 제공하는 것입니다. ElevenLabs의 TTS는 보통 억양을 잘 구현하지만, 때로는 세밀하게 조정하고 싶을 때가 있습니다. 이럴 때 보이스 체인저를 사용하면 원하는 문장의 억양을 직접 시연하고, 선택한 목소리로 똑같이 말하게 할 수 있습니다. 앞으로 보이스 체인저가 스튜디오에 직접 통합되면 이 기능이 더 편리해질 예정이며, 여러분이 원하는 대로 결과물을 정밀하게 편집할 수 있도록 돕는 것이 목표입니다.

연구

이 과정은 얼굴 이미지를 가져와 그 속성을 매핑하는 것과 같습니다. 아래 예시의 마커들은 바로 그 역할을 하며, 이 범위 안에서 다른 얼굴이 표현됩니다.

원본 음성을 목표 음성으로 변환하려면, 원본 음성의 내용을 목표 음성의 특성으로 표현해야 합니다. 얼굴 합성 앱처럼 두 사람의 얼굴을 섞어 하나의 이미지를 만드는 것과 비슷한 원리입니다.

이 과정은 얼굴 이미지를 가져와 그 특징을 매핑하는 것과 같습니다. 아래 예시의 마커는 바로 그 역할을 하며, 이 범위 안에서 다른 얼굴이 표현됩니다.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

제품 및 최근 업데이트

기본 제공 목소리 변경

텍스트 음성 변환에서 기본 제공되는 목소리에 변동이 있습니다. 일부 목소리는 종료되고, 새로운 목소리로 대체될 예정입니다. 앞으로 몇 주간 20개 이상의 목소리가 추가될 예정입니다.

각 목소리가 얼마나 오래 제공되는지 UI에서 안내할 예정입니다. 12월 동안 목소리 공유 및 사용 보상 기능도 개선하여 더 다양한 목소리를 제공할 계획입니다. 자세한 내용은 곧 안내드리겠습니다.

Eleven Turbo v2 & uLaw 8khz 포맷

Turbo v2는 ElevenLabs 팀이 수개월간 연구해 완성한 결과물입니다. 실시간 상호작용에 최적화되어 있지만, 다양한 용도에 사용할 수 있습니다. 또한 IVR 시스템을 위한 표준 (m)uLaw 8kHz 포맷도 지원합니다.

스튜디오의 정규화 및 메타데이터

스튜디오는 이제 업계 표준 오디오북 제출 가이드라인(게인 조정, 다이내믹 컴프레션 등)을 지원합니다. 또한 스튜디오 프로젝트에 ISBN, 저자, 제목 등 메타데이터를 직접 삽입할 수 있습니다.

발음 사전

가장 많은 요청을 받은 기능 중 하나입니다. 지난달에는 영어 모델에서 IPA, CMU 사전을 활용한 발음 지정 SSML 태그를 지원하기 시작했습니다. 이제 스튜디오 UI에서도 발음 사전 기능이 추가되어, IPA, CMU, 단어 치환(별칭) 방식으로 발음을 지정한 파일을 업로드할 수 있습니다. 사전 파일은 업계 표준 오픈 .PLS

IPA와 CMU는 현재 Turbo v2 영어 모델에서 지원됩니다. 단어 치환은 모든 모델과 언어에서 사용 가능합니다. 전체 문서는

발음 사전 추가는 가장 많은 요청을 받은 기능 중 하나였습니다. 지난달에는 영어 모델에서 IPA, CMU 사전을 활용해 SSML 태그로 발음을 지정할 수 있도록 했습니다. 이제 스튜디오 UI에서도 발음 사전 기능이 제공되어, IPA, CMU, 단어 치환 방식으로 발음을 지정한 파일을 업로드할 수 있습니다. 사전 파일은 업계 표준 오픈 포맷인 .PLS 렉시콘 파일 포맷.

피드백이 있으시면 언제든 Discord로 연락해 주세요!여기에서 확인하세요.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

원하는 방식으로 말하고, 완전히 다른 목소리로 전달되는 결과를 직접 들어보세요. 속삭임, 웃음, 억양, 미묘한 감정까지 모두 담아낼 수 있습니다.

보이스 체인저 소개

이렇게 하면

이 과정은 얼굴 이미지를 가져와 그 속성을 매핑하는 것과 같습니다. 아래 예시의 마커들은 바로 그 역할을 하며, 이 범위 안에서 다른 얼굴이 표현됩니다.

텍스트 음성 변환에서 기본 제공되는 목소리에 변동이 있습니다. 일부 목소리는 종료되고, 새로운 목소리로 대체될 예정입니다. 앞으로 몇 주간 20개 이상의 목소리가 추가될 예정입니다.

각 목소리가 얼마나 오래 제공되는지 UI에서 안내할 예정입니다. 12월 동안 목소리 공유 및 사용 보상 기능도 개선하여 더 다양한 목소리를 제공할 계획입니다. 자세한 내용은 곧 안내드리겠습니다.

스튜디오의 정규화 및 메타데이터

발음 사전

IPA와 CMU는 현재 Turbo v2 영어 모델에서 지원됩니다. 단어 치환은 모든 모델과 언어에서 사용 가능합니다. 전체 문서는

유사한 기사

ElevenAgents에서 이미지 및 문서 처리하기

ElevenCreative에서 아바타 도입

ElevenCreative의 Flows Agent 소개

웨비나 요약: 모든 채널에 에이전트 배포하기