
Eleven v3 (알파) 출시
- 카테고리
- 연구
- 날짜
가장 진보된 Eleven v3 텍스트 음성 변환 모델이 이제 알파 단계를 벗어나 정식으로 제공됩니다.
알파 출시 이후, 모델을 계속 개선해왔습니다. 주요 개선점 두 가지:
더 안정적입니다. 테스트에서 사용자 72%가 이전 알파 버전보다 새 버전을 선호했습니다.
더 정확합니다. 숫자, 기호, 특수 표기법을 여러 언어에서 훨씬 더 정확하게 처리할 수 있도록 모델을 크게 개선했습니다.
텍스트 음성 변환 모델은 입력된 글을 해석하고 어떻게 읽을지 결정해야 합니다. 같은 기호라도 상황에 따라 의미가 달라질 수 있습니다.
예를 들어, 전화번호: "+49 170 9876543"
일부 경우, 모델이 이 번호를 "플러스 포티나인, 원 헌드레드 세븐티, 나인 밀리언 에잇 헌드레드 세븐티-식스 사우전드 파이브 헌드레드 포티-쓰리"처럼 큰 숫자로 읽는 오류가 있었습니다. 올바른 읽기는 "플러스 포 나인, 원 세븐 제로, 나인 에잇 세븐 식스 파이브 포 쓰리"입니다.
이런 오류는 스포츠 점수, 화학식, 통화, 좌표 등 다양한 분야에서 나타났습니다. 모델이 기호를 해석하고 어떻게 읽을지 결정해야 하는 모든 상황에서 발생할 수 있습니다.
내부 벤치마크로 8개 언어, 27개 카테고리를 대상으로 테스트를 진행했습니다.
전체 결과:오류 68% 감소. 오류율이 15.3%에서 4.9%로 줄었습니다.
카테고리별 오류율:
문맥에 따라 해석이 달라지는 카테고리에서 개선 효과가 가장 컸습니다. 예를 들어, 콜론(:)이 주변 문맥에 따라 스포츠 점수, 시간, 화면 비율 등으로 해석될 수 있습니다.
예시
통화 — 올바른 단위:
입력: ¥250,000
이전: 25,000엔
이후: 250,000엔
화학식 — 기호 정확히 보존:
입력: SO₂
이전: "sulfur double" (잘못 읽음)
이후: "S O 투"
스포츠 점수 — 문맥 인식 해석:
입력: 최종 점수: 102-98
이전: "백이 마이너스 구십팔"
이후: "백이 대 구십팔"
Eleven v3는 모든 플랫폼에서 정식으로 제공됩니다.