
Voice Design - La première IA générative pour l'audio
- Catégorie
- Produit
- Date
Prenez une photo d'une statue. Identifiez les personnages représentés. Puis discutez avec eux en temps réel – chaque personnage s’exprime avec une voix distincte, fidèle à son époque.
C'est ce que vous pouvez créer avec les API Voice Design et Agent d'ElevenLabs. Dans cet article, nous expliquons l’architecture d’une application web mobile qui associe la vision par ordinateur à la génération de voix pour transformer des monuments publics en expériences interactives. Tout ce qui suit peut être reproduit avec les API et les exemples de code ci-dessous.
Toute l’application ci-dessous a été créée à partir d’un seul prompt, testée et réussie en une fois dans Curseur avec Claude Opus 4.5 (high) à partir d’un projet NextJS vierge. Si vous voulez aller plus vite et créer la vôtre, collez ceci dans votre éditeur :
Vous pouvez aussi utiliser les Compétences des agents ElevenLabs au lieu de consulter la documentation. Ils sont basés sur la doc et peuvent donner des résultats encore meilleurs.
La suite de cet article détaille ce que produit ce prompt.
Le processus se déroule en cinq étapes :
Quand un utilisateur photographie une statue, l’image est envoyée à un modèle OpenAI doté de capacités de vision. Un prompt système structuré extrait le nom de l’œuvre, l’emplacement, l’artiste, la date et – point clé – une description vocale détaillée pour chaque personnage. Le prompt système précise le format de sortie JSON attendu :
Pour une photo de la statue de Boudica sur Westminster Bridge, à Londres, la réponse ressemble à ceci :
La qualité de la description vocale détermine directement la qualité de la voix générée. Le guide de prompts Voice Design explique cela en détail, mais les éléments clés à inclure sont : marqueur de qualité audio (« Qualité audio parfaite. »), âge et genre, ton/timbre (profond, résonnant, rocailleux), accent précis (« fort accent celtique britannique » plutôt que simplement « britannique »), et rythme. Plus la description est précise, plus le résultat est fidèle – « une New-Yorkaise fatiguée d’une soixantaine d’années avec un humour sec » donnera toujours un meilleur résultat que « une voix féminine âgée ».
Quelques points à retenir du guide : utilisez « fort » plutôt que « marqué » pour décrire l’accent, évitez les termes vagues comme « étranger », et pour les personnages fictifs ou historiques, vous pouvez suggérer des accents réels comme inspiration (ex. : « une reine celte antique avec un fort accent britannique, voix royale et autoritaire »).
L’ API Voice Design génère de nouvelles voix synthétiques à partir de descriptions textuelles – pas besoin d’échantillon ou de clonage. C’est idéal pour les personnages historiques sans enregistrement audio.
Le processus se fait en deux étapes.
Le paramètre texte est important. Un texte d’exemple plus long et adapté au personnage (plus de 50 mots) donne des résultats plus stables – adaptez le dialogue au personnage plutôt que d’utiliser une salutation générique. Le guide de prompts Voice Design détaille cela davantage.
Une fois les aperçus générés, choisissez-en un et créez une voix permanente :
Pour les statues à plusieurs personnages, la création des voix se fait en parallèle. Les voix de cinq personnages sont générées en à peu près le même temps qu’une seule :
Une fois les voix créées, l’étape suivante consiste à configurer un agent ElevenLabs capable de passer d’une voix de personnage à l’autre en temps réel.
Le tableau supportedVoices indique à l’agent quelles voix sont disponibles. La plateforme Agents gère automatiquement le changement de voix – quand la réponse du LLM indique qu’un autre personnage parle, le moteur TTS attribue ce passage à la bonne voix.
Pour que plusieurs personnages donnent l’impression d’un vrai groupe – et pas seulement d’un échange de questions/réponses – il faut concevoir le prompt avec soin :
La dernière étape concerne la connexion client. ElevenLabs Agents prend en charge WebRTC pour des conversations vocales à faible latence – nettement plus rapide que les connexions via WebSocket, ce qui rend les échanges plus naturels.
Le hook useConversation gère la capture audio, le streaming, la détection d’activité vocale et la lecture.
Pour les utilisateurs qui souhaitent plus de contexte historique avant de commencer la conversation, vous pouvez ajouter un mode recherche avancée avec l’outil de recherche web d’OpenAI :
Ce projet montre qu’en combinant plusieurs modalités d’IA – texte, recherche, vision et audio – on peut créer des expériences qui relient le monde numérique et le monde réel. Il reste beaucoup à explorer avec les agents multi-modaux, et nous aimerions voir plus de personnes s’en emparer pour l’éducation, le travail ou le loisir.
Les API utilisées dans ce projet –Conception de voix,ElevenAgents, et OpenAI – sont toutes disponibles dès maintenant.



