Apresentando o speech to speech

Diga como você quer e transforme sua voz em outro personagem com total controle sobre emoções, tempo e entrega

Adicionamos Speech to Speech (STS) à Síntese de Fala. STS é uma ferramenta de conversão de voz que permite transformar a gravação de uma voz para soar como se fosse falada por outra. Ela permite controlar as emoções, o tom e a pronúncia além do que é possível com TTS apenas. Use para extrair mais emoções de uma voz específica ou como uma referência de 'diga como você quer'.

Em outras atualizações, estamos fazendo mudanças em nossas vozes prontas. Também fizemos várias melhorias no Studio, incluindo normalização adicionada, dicionário de pronúncia e mais opções de personalização.

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Diga como você quer e ouça em outra voz com total controle sobre a entrega

Speech to speech

STS pega o conteúdo e o estilo de fala contidos no seu upload/gravação e muda a voz. Pense no STS como útil principalmente para duas coisas.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Uma é extrair mais emoções de uma voz pronta específica. Faça upload/grave uma fala altamente expressiva e o STS replicará as emoções e a entonação em outra voz. Como nem todas as vozes podem expressar emoções fortes apenas com prompts de TTS, agora você pode tornar um narrador profissional ou um personagem de livro infantil mais expressivo com sua própria voz.

Outro uso para o STS é fornecer uma 'referência' para a entrega da fala. Embora nosso TTS geralmente acerte a entonação de imediato, às vezes você pode querer ajustá-la. Aqui, o STS permite que você demonstre como entonar uma frase específica e, em seguida, escolha qualquer voz para dizer assim. Essa funcionalidade se tornará mais útil e simplificada assim que integrarmos o STS diretamente no Studio, mas nosso objetivo aqui é melhorar radicalmente sua capacidade de editar o resultado com precisão.

Assista ao vídeo criado por um dos membros da nossa comunidade:

Pesquisa

Para converter a fala de origem em fala de destino, precisamos expressar o conteúdo da fala de origem com as características da fala de destino. Uma boa analogia seria os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.

A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais o outro rosto seria renderizado.

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

O truque na conversão de voz é renderizar o conteúdo da fala de origem usando os fonemas da fala de destino. Mas há um equilíbrio aqui, assim como no exemplo de troca de rosto: quanto mais marcadores você usa para mapear os atributos de um rosto, mais restrições você impõe ao rosto que você mapeia dentro deles. Menos marcadores significam menos restrições.

O mesmo é verdade para a conversão de voz. Quanto mais preferência damos à fala de destino, mais corremos o risco de ficar fora de sincronia com a fala de origem. Mas se não dermos preferência suficiente, corremos o risco de perder muito do que torna essa fala característica. Por exemplo, se fôssemos renderizar a gravação de alguém gritando com raiva em uma voz sussurrante, teríamos problemas. Dar muita preferência às emoções da fala de origem e o preço que pagamos é perder a impressão de que é uma voz sussurrante falando. Muita ênfase no padrão de fala sussurrante e perdemos a carga emocional da fala de origem.

Produto e atualizações recentes

Mudanças nas vozes prontas

Faremos mudanças nas vozes padrão disponíveis na Síntese de Fala ainda esta semana. Vamos parar de suportar algumas vozes, mas as substituiremos por novas. Planejamos adicionar mais de 20 no total nas próximas semanas.

Também começaremos a fornecer informações na interface sobre quanto tempo cada voz deve estar disponível. Finalmente, ao longo de dezembro, trabalharemos na reformulação dos recursos de compartilhamento de voz e compensação de uso da nossa plataforma para melhorar ainda mais a variedade de vozes. Mais detalhes em breve.

Eleven Turbo v2 e formato uLaw 8khz

Nosso modelo Turbo reúne meses de pesquisa da nossa equipe técnica. Ele é projetado para interações em tempo real, mas pode ser usado para o que você quiser. Ele também vem com o formato padrão (m)uLaw 8kHz para sistemas IVR.

Normalização e metadados com o Studio

Agora você pode seguir as diretrizes padrão da indústria para submissão de audiolivros dentro do Studio. Isso inclui ajustar o ganho e aplicar compressão dinâmica. Além disso, agora há a opção de incorporar metadados no seu Studio (ISBN, autor e título).

Diário de pronúncia

Adicionar um Dicionário de Pronúncia tem sido um dos nossos recursos mais solicitados. No mês passado, implementamos a adição de tags SSML para especificar a pronúncia usando os dicionários IPA e CMU para nossos modelos em inglês. Agora lançamos o suporte ao dicionário de pronúncia na interface do Studio, permitindo que você faça upload de um arquivo especificando a pronúncia usando IPA, CMU ou substituições de palavras. Os arquivos de dicionário são carregados usando o padrão da indústria e o formato aberto .PLS formato de arquivo de léxico.

Por enquanto, IPA e CMU são suportados pelo Turbo V2 em inglês, e substituições de palavras (apelidos) são suportadas por todos os modelos e idiomas. A documentação completa pode ser encontrada aqui.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

Se você tiver algum feedback, não hesite em nos contatar no Discord!

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Diga como você quer e ouça em outra voz com total controle sobre a entrega

Explore artigos da equipe ElevenLabs

Resources

Top PlayHT Alternatives in 2025

Compare PlayHT with other TTS platforms that offer similar features. Analyze voice quality, clarity, and emotional delivery.

ElevenLabs

Crie com o áudio IA da mais alta qualidade