본문 바로가기

Eleven v3, 이제 정식 출시

가장 진보된 텍스트 음성 변환 모델인 Eleven v3가 알파 단계를 마치고 정식으로 제공됩니다.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

가장 진보된 Eleven v3 텍스트 음성 변환 모델이 이제 알파 단계를 벗어나 정식으로 제공됩니다.

알파 출시 이후, 모델을 계속 개선해왔습니다. 주요 개선점 두 가지:

더 안정적입니다. 테스트에서 사용자 72%가 이전 알파 버전보다 새 버전을 선호했습니다.

더 정확합니다. 숫자, 기호, 특수 표기법을 여러 언어에서 훨씬 더 정확하게 처리할 수 있도록 모델을 크게 개선했습니다.

정확도 개선

텍스트 음성 변환 모델은 입력된 글을 해석하고 어떻게 읽을지 결정해야 합니다. 같은 기호라도 상황에 따라 의미가 달라질 수 있습니다.

예를 들어, 전화번호: "+49 170 9876543"

일부 경우, 모델이 이 번호를 "플러스 포티나인, 원 헌드레드 세븐티, 나인 밀리언 에잇 헌드레드 세븐티-식스 사우전드 파이브 헌드레드 포티-쓰리"처럼 큰 숫자로 읽는 오류가 있었습니다. 올바른 읽기는 "플러스 포 나인, 원 세븐 제로, 나인 에잇 세븐 식스 파이브 포 쓰리"입니다.

이런 오류는 스포츠 점수, 화학식, 통화, 좌표 등 다양한 분야에서 나타났습니다. 모델이 기호를 해석하고 어떻게 읽을지 결정해야 하는 모든 상황에서 발생할 수 있습니다.

내부 벤치마크로 8개 언어, 27개 카테고리를 대상으로 테스트를 진행했습니다.

전체 결과:오류 68% 감소. 오류율이 15.3%에서 4.9%로 줄었습니다.

카테고리별 오류율:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

문맥에 따라 해석이 달라지는 카테고리에서 개선 효과가 가장 컸습니다. 예를 들어, 콜론(:)이 주변 문맥에 따라 스포츠 점수, 시간, 화면 비율 등으로 해석될 수 있습니다.

예시

통화 — 올바른 단위:

입력:  ¥250,000

이전: 25,000엔

이후:  250,000엔

화학식 — 기호 정확히 보존:

입력:  SO₂

이전: "sulfur double" (잘못 읽음)

이후:  "S O 투"

스포츠 점수 — 문맥 인식 해석:

입력:  최종 점수: 102-98

이전: "백이 마이너스 구십팔"

이후:  "백이 대 구십팔"

이용 가능 여부

Eleven v3는 모든 플랫폼에서 정식으로 제공됩니다.

ElevenLabs 팀의 다른 글 보기

최고 품질의 AI 오디오로 창작하세요