Pular para o conteúdo

Eleven v3 agora está disponível para todos

Eleven v3, nosso modelo mais avançado de Transformar Texto em Áudio, saiu do Alpha e agora está disponível para todos.

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3, nosso modelo mais avançado de

Desde o lançamento Alpha, continuamos aprimorando o modelo. Dois destaques:

Mais estável. Nos testes, os usuários preferiram a nova versão em 72% dos casos em relação ao Alpha anterior.

Mais preciso. Melhoramos bastante a forma como o modelo lida com números, símbolos e notações específicas em diferentes idiomas.

Melhorias de precisão

Modelos de Transformar Texto em Áudio precisam interpretar o que você escreve e decidir como falar. Os mesmos símbolos podem ter significados diferentes dependendo do contexto.

Veja um número de telefone: "+49 170 9876543"

Em alguns casos, nossos modelos liam isso como "mais quarenta e nove, cento e setenta, nove milhões oitocentos e setenta e seis mil quinhentos e quarenta e três" — interpretando os dígitos como números grandes, e não como uma sequência. O correto seria "mais quatro nove, um sete zero, nove oito sete seis cinco quatro três."

Esse tipo de erro aparecia em várias categorias — placares esportivos, fórmulas químicas, moedas, coordenadas — em qualquer situação em que o modelo precisava interpretar símbolos e decidir como falar.

Testamos com um benchmark interno cobrindo 27 categorias em 8 idiomas.

No geral: Redução de 68% nos erros. A taxa de erro caiu de 15,3% para 4,9%.

Taxa de erro por categoria:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

As melhorias são mais notáveis em categorias onde o contexto define a interpretação — como quando dois pontos podem indicar um placar, um horário ou uma proporção, dependendo do texto ao redor.

Exemplos

Moedas — valor correto:

Entrada:  ¥250.000

Antes: 25.000 ienes

Depois:  250.000 ienes

Fórmulas químicas — símbolos preservados corretamente:

Entrada:  SO₂

Antes: "enxofre duplo" (confuso)

Depois:  "S O dois"

Placar esportivo — interpretação de acordo com o contexto:

Entrada:  Placar final: 102-98

Antes: "cento e dois menos noventa e oito"

Depois:  "cento e dois a noventa e oito"

Disponibilidade

Eleven v3 agora está disponível em todas as plataformas.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade