Speech to Speech e atualização de produto

1 de nov. de 2023 • 8 minutos de leitura

Diga do jeito que você quer!

A microphone on a wooden table in a recording studio with audio equipment in the background.

Adicionamos Speech to Speech (STS) à Síntese de Fala. STS é uma ferramenta de conversão de voz que permite transformar a gravação de uma voz para soar como se fosse falada por outra. Permite controlar as emoções, o tom e a pronúncia além do que é possível com TTS apenas. Use para extrair mais emoções de uma voz específica ou como uma referência 'diga do jeito que você quer'.

Em outras atualizações, estamos fazendo mudanças em nossas vozes prontas. Além disso, fizemos várias melhorias nos Projects, incluindo normalização adicionada, dicionário de pronúncia e mais opções de personalização.

Voice Changer com IA

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

Diga como você quer e ouça em outra voz com total controle sobre a entrega

Speech to Speech

STS pega o conteúdo e o estilo de fala contidos no seu upload/gravação e muda a voz. Pense no STS como útil principalmente para duas coisas.

Uma é extrair mais emoções de uma voz pronta específica. Faça upload/grave uma fala altamente expressiva e o STS replicará as emoções e a entonação em outra voz. Como nem todas as vozes podem expressar emoções fortes com TTS apenas, agora você pode tornar um narrador profissional ou um personagem de livro infantil mais expressivo com sua própria voz.

Outro uso para o STS é fornecer uma 'referência' para a entrega da fala. Embora nosso TTS geralmente acerte a entonação de imediato, às vezes você pode querer ajustá-la. Aqui, o STS permite que você demonstre como entonar uma frase específica e, em seguida, qualquer voz que você escolher pode dizê-la assim. Essa funcionalidade se tornará mais útil e simplificada assim que integrarmos o STS diretamente nos Projects, mas nosso objetivo aqui é melhorar radicalmente sua capacidade de editar o resultado com precisão.

Assista ao vídeo criado por um dos membros da nossa comunidade:

Pesquisa

Para converter a fala de origem em fala de destino, precisamos expressar o conteúdo da fala de origem com as características da fala de destino. Uma boa analogia seriam os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.

A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais o outro rosto seria renderizado.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

O truque na conversão de voz é renderizar o conteúdo da fala de origem usando os fonemas da fala de destino. Mas há um equilíbrio aqui, assim como no exemplo de troca de rosto: quanto mais marcadores você usa para mapear os atributos de um rosto, mais restrições você impõe ao rosto que você mapeia dentro deles. Menos marcadores significam menos restrições.

O mesmo é verdade para a conversão de voz. Quanto mais preferência damos à fala de destino, mais corremos o risco de ficar fora de sincronia com a fala de origem. Mas se não dermos preferência suficiente, corremos o risco de perder muito do que torna aquela fala característica. Por exemplo, se fôssemos renderizar a gravação de alguém gritando com raiva em uma voz sussurrante, estaríamos em apuros. Dar muita preferência às emoções da fala de origem e o preço que pagamos é perder a impressão de que é uma voz sussurrante falando. Muita ênfase no padrão de fala sussurrante e perdemos a carga emocional da fala de origem.

Produto e atualizações recentes

Mudanças nas vozes prontas

Faremos mudanças nas vozes padrão disponíveis na Síntese de Fala ainda esta semana. Pararemos de suportar algumas vozes, mas as substituiremos por novas. Planejamos adicionar mais de 20 no total nas próximas semanas.

Também começaremos a fornecer informações na interface sobre quanto tempo cada voz deve estar disponível. Finalmente, ao longo de dezembro, trabalharemos na reformulação dos recursos de compartilhamento de voz e compensação de uso da nossa plataforma para melhorar ainda mais a variedade de vozes. Mais detalhes em breve.

Eleven Turbo v2 e formato uLaw 8kHz

Nosso modelo Turbo reúne meses de pesquisa da nossa equipe técnica. É projetado para interações em tempo real, mas pode ser usado para o que você quiser. Também vem com o formato padrão (m)uLaw 8kHz para sistemas IVR.

Normalização e metadados com Projects

Agora você pode seguir as diretrizes padrão da indústria para submissão de audiolivros dentro dos Projects. Isso inclui ajustar o ganho e aplicar compressão dinâmica. Além disso, agora há a opção de incorporar metadados nos seus Projects (ISBN, autor e título).

Diário de pronúncia

Adicionar um Dicionário de Pronúncia tem sido um dos nossos recursos mais solicitados. No mês passado, implementamos a adição de tags SSML para especificar a pronúncia usando os dicionários IPA e CMU para nossos modelos em inglês. Agora lançamos o suporte ao dicionário de pronúncia na interface dos Projects, permitindo que você faça upload de um arquivo especificando a pronúncia usando IPA, CMU ou substituições de palavras. Os arquivos de dicionário são enviados usando o padrão da indústria e o formato aberto .PLS formato de arquivo de léxico.

Por enquanto, IPA e CMU são suportados pelo Turbo V2 em inglês, e substituições de palavras (apelidos) são suportadas por todos os modelos e idiomas. A documentação completa pode ser encontrada aqui.