Pular para o conteúdo

Eleven v3 agora está disponível para todos

Eleven v3, nosso modelo mais avançado de Transformar Texto em Áudio, saiu do Alpha e agora está disponível para todos.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, nosso modelo mais avançado de Transformar Texto em Áudio, saiu do Alpha e agora está disponível para todos.

Desde o lançamento Alpha, continuamos aprimorando o modelo. Dois destaques:

Mais estável. Nos testes, os usuários preferiram a nova versão em 72% dos casos em relação ao Alpha anterior.

Mais preciso. Melhoramos bastante a forma como o modelo lida com números, símbolos e notações específicas em diferentes idiomas.

Melhorias de precisão

Modelos de Transformar Texto em Áudio precisam interpretar o que você escreve e decidir como falar. Os mesmos símbolos podem ter significados diferentes dependendo do contexto.

Veja um número de telefone: "+49 170 9876543"

Em alguns casos, nossos modelos liam isso como "mais quarenta e nove, cento e setenta, nove milhões oitocentos e setenta e seis mil quinhentos e quarenta e três" — interpretando os dígitos como números grandes, e não como uma sequência. O correto seria "mais quatro nove, um sete zero, nove oito sete seis cinco quatro três."

Esse tipo de erro aparecia em várias categorias — placares esportivos, fórmulas químicas, moedas, coordenadas — em qualquer situação em que o modelo precisava interpretar símbolos e decidir como falar.

Testamos com um benchmark interno cobrindo 27 categorias em 8 idiomas.

No geral: Redução de 68% nos erros. A taxa de erro caiu de 15,3% para 4,9%.

Taxa de erro por categoria:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

As melhorias são mais notáveis em categorias onde o contexto define a interpretação — como quando dois pontos podem indicar um placar, um horário ou uma proporção, dependendo do texto ao redor.

Exemplos

Moedas — valor correto:

Entrada:  ¥250.000

Antes: 25.000 ienes

Depois:  250.000 ienes

Fórmulas químicas — símbolos preservados corretamente:

Entrada:  SO₂

Antes: "enxofre duplo" (confuso)

Depois:  "S O dois"

Placar esportivo — interpretação de acordo com o contexto:

Entrada:  Placar final: 102-98

Antes: "cento e dois menos noventa e oito"

Depois:  "cento e dois a noventa e oito"

Disponibilidade

Eleven v3 agora está disponível em todas as plataformas.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade