
Voice Design - A Primeira IA Generativa Para Áudio
- Categoria
- Produto
- Data
Fotografe uma estátua. Identifique as figuras retratadas. Depois, converse por voz em tempo real com elas – cada personagem falando com uma voz única e adequada à época.
É isso que você pode criar com as APIs de Design de Voz e de Agentes da ElevenLabs. Neste post, mostramos a arquitetura de um app móvel para web que combina visão computacional com geração de voz para transformar monumentos públicos em experiências interativas. Tudo aqui pode ser reproduzido usando as APIs e os exemplos de código abaixo.
O app abaixo foi criado a partir de um único prompt, testado e funcionando de primeira noCursor com Claude Opus 4.5 (alto) a partir de um projeto NextJS vazio. Se quiser ir direto ao ponto e criar o seu, cole isto no seu editor:
Você também pode usar as Habilidades do ElevenLabs Agent em vez de consultar a documentação. Elas são baseadas nos docs e podem trazer resultados ainda melhores.
O restante deste post explica o que esse prompt produz.
O fluxo tem cinco etapas:
Quando o usuário fotografa uma estátua, a imagem é enviada para um modelo da OpenAI com capacidade de visão. Um prompt estruturado extrai o nome da obra, localização, artista, data e – o mais importante – uma descrição detalhada da voz de cada personagem. O prompt inclui o formato de saída JSON esperado:
Para uma foto da estátua de Boudica na ponte de Westminster, em Londres, a resposta fica assim:
A qualidade da descrição da voz determina diretamente a qualidade da voz gerada. O guia de prompts do Voice Design explica isso em detalhes, mas os principais atributos são: indicação de qualidade de áudio ("Qualidade de áudio perfeita."), idade e gênero, tom/timbre (grave, ressonante, rouca), sotaque preciso ("sotaque celta britânico carregado" em vez de apenas "britânico") e ritmo. Prompts mais detalhados geram resultados mais fiéis – "uma nova-iorquina cansada de 60 e poucos anos com senso de humor seco" funciona muito melhor do que "voz feminina mais velha".
Algumas dicas do guia: use "carregado" em vez de "forte" para descrever a intensidade do sotaque, evite termos vagos como "estrangeiro" e, para personagens fictícios ou históricos, você pode sugerir sotaques reais como referência (ex: "uma rainha celta antiga com sotaque britânico carregado, imponente e autoritária").
A API de Voice Design gera vozes sintéticas novas a partir de descrições em texto – não precisa de amostras de voz nem de clonagem. Isso é ideal para figuras históricas sem registros de áudio.
O processo tem dois passos.
O parâmetro de texto faz diferença. Um texto de amostra mais longo e adequado ao personagem (mais de 50 palavras) gera resultados mais estáveis – combine o diálogo com o personagem, em vez de usar uma saudação genérica. O guia de prompts do Voice Design traz mais detalhes sobre isso.
Depois de gerar as prévias, escolha uma e crie a voz permanente:
Para estátuas com vários personagens, a criação das vozes acontece em paralelo. As vozes de cinco personagens são geradas quase no mesmo tempo que uma só:
Com as vozes prontas, o próximo passo é configurar umAgente ElevenLabs que consiga alternar entre as vozes dos personagens em tempo real.
O array supportedVoices informa ao agente quais vozes estão disponíveis. A plataforma Agents faz a troca de vozes automaticamente – quando a resposta do LLM indica que outro personagem está falando, o mecanismo TTS direciona aquele trecho para a voz correta.
Para que vários personagens soem como um grupo de verdade – e não apenas um bate-papo em sequência – é preciso criar prompts específicos:
A última etapa é a conexão do cliente. Os Agents da ElevenLabs suportam WebRTC para conversas por voz com baixa latência – bem mais rápido que conexões via WebSocket, o que faz diferença para conversas naturais.
O hook useConversation cuida da captura de áudio, transmissão, detecção de atividade de voz e reprodução.
Para quem quiser mais contexto histórico antes de começar a conversa, é possível adicionar um modo de pesquisa avançada usando a ferramenta de busca na web da OpenAI:
Este projeto mostra que, ao combinar diferentes modalidades de IA – texto, pesquisa, visão e áudio – conseguimos criar experiências que conectam o mundo digital ao real. Há muito potencial inexplorado em agentes multimodais, e queremos ver mais pessoas explorando isso para educação, trabalho e diversão.
As APIs usadas neste projeto –Design de Voz,ElevenAgents e OpenAI – já estão disponíveis.



