
Turbo v2 chegou!
- Categoria
- Produto
- Data
Transforme sua voz em outro personagem com controle total sobre emoções, tempo e entonação.
O Modificador de Voz era chamado originalmente de speech-to-speech. No contexto de agentes de voz com IA, "speech-to-speech" também se refere a arquiteturas integradas em que um único modelo lida diretamente com entrada e saída de áudio. O ElevenAgents usa uma arquitetura avançada em cascata na sua plataforma. Saiba mais: Modelos em Cascata vs Integrados.
Adicionamos o
Extraia mais emoção de uma voz.

Veja um passo a passo feito por um membro da nossa comunidade:
Outra utilidade do modificador de voz é servir como ‘referência’ para a entrega da fala. Embora nosso TTS normalmente acerte a entonação de primeira, às vezes você pode querer ajustar algum detalhe. Com o modificador de voz, você pode mostrar como deseja que uma frase seja entonada e depois escolher qualquer voz para repeti-la desse jeito. Essa função vai ficar ainda mais prática quando integrarmos o modificador de voz diretamente ao Estúdio, mas nosso objetivo já é facilitar ao máximo a edição precisa do resultado.
Pesquisa
Para converter a fala de origem em fala de destino, precisamos expressar o conteúdo da fala de origem com as características da fala de destino. Uma boa analogia seria os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.
A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais o outro rosto seria renderizado.
Produto e novidades recentes
Mudanças nas vozes prontas
Eleven Turbo v2 & formato uLaw 8khz
O Turbo v2 é resultado de meses de pesquisa do nosso time. Ele foi criado para interações em tempo real, mas funciona para qualquer uso. Também é compatível com o formato padrão (m)uLaw 8kHz para sistemas IVR.
O Estúdio agora segue as diretrizes de envio de audiolivros do mercado, incluindo ajuste de ganho e compressão dinâmica. Você também pode inserir metadados (ISBN, autor e título) diretamente no seu projeto do Estúdio.
Esse era um dos recursos mais pedidos. No mês passado, adicionamos suporte a tags SSML para especificar pronúncia usando os dicionários IPA e CMU nos nossos modelos em inglês. Agora, lançamos o suporte ao dicionário de pronúncia na interface do Estúdio, permitindo enviar um arquivo com a pronúncia usando IPA, CMU ou substituições de palavras (apelidos). Os arquivos de dicionário usam o formato aberto e padrão .PLS
Adicionar um Dicionário de Pronúncia tem sido um dos nossos recursos mais solicitados. No mês passado, implementamos a adição de tags SSML para especificar a pronúncia usando os dicionários IPA e CMU para nossos modelos em inglês. Agora lançamos o suporte ao dicionário de pronúncia na interface do Studio, permitindo que você faça upload de um arquivo especificando a pronúncia usando IPA, CMU ou substituições de palavras. Os arquivos de dicionário são carregados usando o padrão da indústria e o formato aberto .PLS formato de arquivo de léxico.
Se tiver sugestões ou comentários, fale com a gente no Discord!aqui.
Fale do seu jeito e ouça o resultado em uma voz totalmente diferente, com controle total sobre a performance. Capture sussurros, risadas, sotaques e nuances emocionais.



