Fale do seu jeito e ouça sua mensagem em uma voz totalmente diferente, com controle total sobre a performance. Capte sussurros, risadas, sotaques e nuances emocionais sutis.
Apresentando o Modificador de Voz IA
Transforme sua voz em outro personagem com controle total sobre emoções, tempo e entonação.
O Modificador de Voz era chamado originalmente de speech-to-speech. No contexto de agentes de voz com IA, "speech-to-speech" também se refere a arquiteturas integradas em que um único modelo lida diretamente com entrada e saída de áudio. O ElevenAgents usa uma arquitetura avançada em cascata na sua plataforma. Saiba mais: Modelos em Cascata vs Integrados.
Adicionamos o
Isso oferece um nível de controle que
Extraia mais emoção de uma voz.

Veja um passo a passo feito por um membro da nossa comunidade:
Outra utilidade do modificador de voz é servir como ‘referência’ para a entrega da fala. Embora nosso TTS normalmente acerte a entonação de primeira, às vezes você pode querer ajustar algum detalhe. Com o modificador de voz, você pode mostrar como deseja que uma frase seja entonada e depois escolher qualquer voz para repeti-la desse jeito. Essa função vai ficar ainda mais prática quando integrarmos o modificador de voz diretamente ao Estúdio, mas nosso objetivo já é facilitar ao máximo a edição precisa do resultado.
Pesquisa
O caminho é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso – eles são os limites dentro dos quais o outro rosto será renderizado.
Para converter a fala de origem em fala de destino, precisamos expressar o conteúdo da fala de origem com as características da fala de destino. Uma boa analogia seria os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.
A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais o outro rosto seria renderizado.
Produto e novidades recentes
Mudanças nas vozes prontas
Estamos fazendo mudanças nas vozes padrão disponíveis na Transformação de Texto em Áudio. Algumas vozes serão descontinuadas e substituídas por novas, com mais de 20 adições previstas nas próximas semanas.
Também vamos começar a mostrar na interface por quanto tempo cada voz deve ficar disponível. Ao longo de dezembro, vamos renovar os recursos de compartilhamento de vozes e compensação de uso para aumentar a variedade. Mais detalhes em breve.
Eleven Turbo v2 & formato uLaw 8khz
O Turbo v2 é resultado de meses de pesquisa do nosso time. Ele foi criado para interações em tempo real, mas funciona para qualquer uso. Também é compatível com o formato padrão (m)uLaw 8kHz para sistemas IVR.
Normalização e metadados no Estúdio
O Estúdio agora segue as diretrizes de envio de audiolivros do mercado, incluindo ajuste de ganho e compressão dinâmica. Você também pode inserir metadados (ISBN, autor e título) diretamente no seu projeto do Estúdio.
Dicionário de pronúncia
Esse era um dos recursos mais pedidos. No mês passado, adicionamos suporte a tags SSML para especificar pronúncia usando os dicionários IPA e CMU nos nossos modelos em inglês. Agora, lançamos o suporte ao dicionário de pronúncia na interface do Estúdio, permitindo enviar um arquivo com a pronúncia usando IPA, CMU ou substituições de palavras (apelidos). Os arquivos de dicionário usam o formato aberto e padrão .PLS
IPA e CMU são suportados atualmente pelo Turbo v2 em inglês. Substituições de palavras são aceitas por todos os modelos e idiomas. A documentação completa está disponível
Adicionar um Dicionário de Pronúncia tem sido um dos nossos recursos mais solicitados. No mês passado, implementamos a adição de tags SSML para especificar a pronúncia usando os dicionários IPA e CMU para nossos modelos em inglês. Agora lançamos o suporte ao dicionário de pronúncia na interface do Studio, permitindo que você faça upload de um arquivo especificando a pronúncia usando IPA, CMU ou substituições de palavras. Os arquivos de dicionário são carregados usando o padrão da indústria e o formato aberto .PLS formato de arquivo de léxico.
Se tiver sugestões ou comentários, fale com a gente no Discord!aqui.
Fale do seu jeito e ouça o resultado em uma voz totalmente diferente, com controle total sobre a performance. Capture sussurros, risadas, sotaques e nuances emocionais.
Fale do seu jeito e ouça sua mensagem em uma voz totalmente diferente, com controle total sobre a performance. Capte sussurros, risadas, sotaques e nuances emocionais sutis.
Explore artigos da equipe ElevenLabs

Resumo do Webinar: Como a IA está revolucionando o aprendizado
- Categoria
- Produto
- Data

Apresentando Flows no ElevenCreative
- Categoria
- Produto
- Data

Resumo do Webinar: Como a Cars24 Automatiza Mais de 3 Milhões de Minutos em Ligações de Vendas com Voz IA
- Categoria
- Produto
- Data
.webp&w=3840&q=80)
Resumo do Webinar: Criação de Conteúdo 10x Mais Rápida
- Categoria
- Produto
- Data

