Apresentando o Modificador de Voz IA

Publicado: 22 de nov. de 2023

OuvirOuça este artigo

0:00

0:000:00

O Modificador de Voz era chamado originalmente de speech-to-speech. No contexto de agentes de voz com IA, "speech-to-speech" também se refere a arquiteturas integradas em que um único modelo lida diretamente com entrada e saída de áudio. O ElevenAgents usa uma arquitetura avançada em cascata na sua plataforma. Saiba mais: Modelos em Cascata vs Integrados.

Adicionamos o

Isso oferece um nível de controle que

Extraia mais emoção de uma voz.

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

Veja um passo a passo feito por um membro da nossa comunidade:

Outra utilidade do modificador de voz é servir como ‘referência’ para a entrega da fala. Embora nosso TTS normalmente acerte a entonação de primeira, às vezes você pode querer ajustar algum detalhe. Com o modificador de voz, você pode mostrar como deseja que uma frase seja entonada e depois escolher qualquer voz para repeti-la desse jeito. Essa função vai ficar ainda mais prática quando integrarmos o modificador de voz diretamente ao Estúdio, mas nosso objetivo já é facilitar ao máximo a edição precisa do resultado.

Pesquisa

O caminho é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso – eles são os limites dentro dos quais o outro rosto será renderizado.

Para converter a fala de origem em fala de destino, precisamos expressar o conteúdo da fala de origem com as características da fala de destino. Uma boa analogia seria os aplicativos de troca de rosto que permitem misturar seu rosto com o de outra pessoa para criar uma imagem de ambos como um só.

A maneira de fazer isso é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso: eles são os limites dentro dos quais o outro rosto seria renderizado.

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

Produto e novidades recentes

Mudanças nas vozes prontas

Estamos fazendo mudanças nas vozes padrão disponíveis na Transformação de Texto em Áudio. Algumas vozes serão descontinuadas e substituídas por novas, com mais de 20 adições previstas nas próximas semanas.

Também vamos começar a mostrar na interface por quanto tempo cada voz deve ficar disponível. Ao longo de dezembro, vamos renovar os recursos de compartilhamento de vozes e compensação de uso para aumentar a variedade. Mais detalhes em breve.

Eleven Turbo v2 & formato uLaw 8khz

O Turbo v2 é resultado de meses de pesquisa do nosso time. Ele foi criado para interações em tempo real, mas funciona para qualquer uso. Também é compatível com o formato padrão (m)uLaw 8kHz para sistemas IVR.

Normalização e metadados no Estúdio

O Estúdio agora segue as diretrizes de envio de audiolivros do mercado, incluindo ajuste de ganho e compressão dinâmica. Você também pode inserir metadados (ISBN, autor e título) diretamente no seu projeto do Estúdio.

Dicionário de pronúncia

Esse era um dos recursos mais pedidos. No mês passado, adicionamos suporte a tags SSML para especificar pronúncia usando os dicionários IPA e CMU nos nossos modelos em inglês. Agora, lançamos o suporte ao dicionário de pronúncia na interface do Estúdio, permitindo enviar um arquivo com a pronúncia usando IPA, CMU ou substituições de palavras (apelidos). Os arquivos de dicionário usam o formato aberto e padrão .PLS

IPA e CMU são suportados atualmente pelo Turbo v2 em inglês. Substituições de palavras são aceitas por todos os modelos e idiomas. A documentação completa está disponível

Adicionar um Dicionário de Pronúncia tem sido um dos nossos recursos mais solicitados. No mês passado, implementamos a adição de tags SSML para especificar a pronúncia usando os dicionários IPA e CMU para nossos modelos em inglês. Agora lançamos o suporte ao dicionário de pronúncia na interface do Studio, permitindo que você faça upload de um arquivo especificando a pronúncia usando IPA, CMU ou substituições de palavras. Os arquivos de dicionário são carregados usando o padrão da indústria e o formato aberto .PLS formato de arquivo de léxico.

Se tiver sugestões ou comentários, fale com a gente no Discord!aqui.

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB. — Pronunciation diary

Fale do seu jeito e ouça o resultado em uma voz totalmente diferente, com controle total sobre a performance. Capture sussurros, risadas, sotaques e nuances emocionais.

Apresentando o Modificador de Voz IA

Isso oferece um nível de controle que

O caminho é pegar a imagem de um rosto e mapear seus atributos. Os marcadores no exemplo abaixo fazem exatamente isso – eles são os limites dentro dos quais o outro rosto será renderizado.

Estamos fazendo mudanças nas vozes padrão disponíveis na Transformação de Texto em Áudio. Algumas vozes serão descontinuadas e substituídas por novas, com mais de 20 adições previstas nas próximas semanas.

Também vamos começar a mostrar na interface por quanto tempo cada voz deve ficar disponível. Ao longo de dezembro, vamos renovar os recursos de compartilhamento de vozes e compensação de uso para aumentar a variedade. Mais detalhes em breve.

Normalização e metadados no Estúdio

Dicionário de pronúncia

IPA e CMU são suportados atualmente pelo Turbo v2 em inglês. Substituições de palavras são aceitas por todos os modelos e idiomas. A documentação completa está disponível

Artigos relacionados

Apresentando o Escalamento de Personagens em Audiolivros

Apresentando o References: controle de som para o Music v2

Apresentando Vocals: uma voz consistente para suas músicas no ElevenMusic

Apresentando as Ferramentas no ElevenMusic