Parlez à une statue : créer une application multi-modale avec ElevenAgents
- Rédigé par
- Joe Reeve
- Publié
- Dernière mise à jour
ÉcouterÉcouter cet article
Prenez une photo d'une statue. Identifiez les personnages représentés. Puis discutez avec eux en temps réel – chaque personnage s’exprime avec une voix distincte, fidèle à son époque.
C'est ce que vous pouvez créer avec les API Voice Design et Agent d'ElevenLabs. Dans cet article, nous expliquons l’architecture d’une application web mobile qui associe la vision par ordinateur à la génération de voix pour transformer des monuments publics en expériences interactives. Tout ce qui suit peut être reproduit avec les API et les exemples de code ci-dessous.
Passez le tutoriel – créez-le en une seule commande
Toute l’application ci-dessous a été créée à partir d’un seul prompt, testée et réussie en une fois dans Curseur avec Claude Opus 4.5 (high) à partir d’un projet NextJS vierge. Si vous voulez aller plus vite et créer la vôtre, collez ceci dans votre éditeur :
Vous pouvez aussi utiliser les Compétences des agents ElevenLabs au lieu de consulter la documentation. Ils sont basés sur la doc et peuvent donner des résultats encore meilleurs.
La suite de cet article détaille ce que produit ce prompt.
Comment ça marche
Le processus se déroule en cinq étapes :
- Prendre une photo
- Identifier l’œuvre et ses personnages (OpenAI)
- Rechercher l’histoire (OpenAI)
- Générer des voix uniques pour chaque personnage (ElevenAPI)
- Lancer une conversation vocale en temps réel via WebRTC (ElevenAgents)
Identifier la statue grâce à la vision
Quand un utilisateur photographie une statue, l’image est envoyée à un modèle OpenAI doté de capacités de vision. Un prompt système structuré extrait le nom de l’œuvre, l’emplacement, l’artiste, la date et – point clé – une description vocale détaillée pour chaque personnage. Le prompt système précise le format de sortie JSON attendu :
Pour une photo de la statue de Boudica sur Westminster Bridge, à Londres, la réponse ressemble à ceci :
Rédiger des descriptions de voix efficaces
La qualité de la description vocale détermine directement la qualité de la voix générée. Le guide de prompts Voice Design explique cela en détail, mais les éléments clés à inclure sont : marqueur de qualité audio (« Qualité audio parfaite. »), âge et genre, ton/timbre (profond, résonnant, rocailleux), accent précis (« fort accent celtique britannique » plutôt que simplement « britannique »), et rythme. Plus la description est précise, plus le résultat est fidèle – « une New-Yorkaise fatiguée d’une soixantaine d’années avec un humour sec » donnera toujours un meilleur résultat que « une voix féminine âgée ».
Quelques points à retenir du guide : utilisez « fort » plutôt que « marqué » pour décrire l’accent, évitez les termes vagues comme « étranger », et pour les personnages fictifs ou historiques, vous pouvez suggérer des accents réels comme inspiration (ex. : « une reine celte antique avec un fort accent britannique, voix royale et autoritaire »).
Créer des voix de personnages avec Voice Design
L’ API Voice Design génère de nouvelles voix synthétiques à partir de descriptions textuelles – pas besoin d’échantillon ou de clonage. C’est idéal pour les personnages historiques sans enregistrement audio.
Le processus se fait en deux étapes.
Générer des aperçus
Le paramètre texte est important. Un texte d’exemple plus long et adapté au personnage (plus de 50 mots) donne des résultats plus stables – adaptez le dialogue au personnage plutôt que d’utiliser une salutation générique. Le guide de prompts Voice Design détaille cela davantage.
Enregistrer la voix
Une fois les aperçus générés, choisissez-en un et créez une voix permanente :
Pour les statues à plusieurs personnages, la création des voix se fait en parallèle. Les voix de cinq personnages sont générées en à peu près le même temps qu’une seule :
Créer un agent ElevenLabs multi-voix
Une fois les voix créées, l’étape suivante consiste à configurer un agent ElevenLabs capable de passer d’une voix de personnage à l’autre en temps réel.
Changement de voix en temps réel
Le tableau supportedVoices indique à l’agent quelles voix sont disponibles. La plateforme Agents gère automatiquement le changement de voix – quand la réponse du LLM indique qu’un autre personnage parle, le moteur TTS attribue ce passage à la bonne voix.
Concevoir des prompts pour des conversations de groupe
Pour que plusieurs personnages donnent l’impression d’un vrai groupe – et pas seulement d’un échange de questions/réponses – il faut concevoir le prompt avec soin :
Voix en temps réel via WebRTC
La dernière étape concerne la connexion client. ElevenLabs Agents prend en charge WebRTC pour des conversations vocales à faible latence – nettement plus rapide que les connexions via WebSocket, ce qui rend les échanges plus naturels.
Côté serveur : obtenir un jeton de conversation
Côté client : démarrer la session
Le hook useConversation gère la capture audio, le streaming, la détection d’activité vocale et la lecture.
Approfondir la recherche avec la recherche web
Pour les utilisateurs qui souhaitent plus de contexte historique avant de commencer la conversation, vous pouvez ajouter un mode recherche avancée avec l’outil de recherche web d’OpenAI :
Ce que nous avons appris
Ce projet montre qu’en combinant plusieurs modalités d’IA – texte, recherche, vision et audio – on peut créer des expériences qui relient le monde numérique et le monde réel. Il reste beaucoup à explorer avec les agents multi-modaux, et nous aimerions voir plus de personnes s’en emparer pour l’éducation, le travail ou le loisir.
Commencez à créer
Les API utilisées dans ce projet –Conception de voix,ElevenAgents, et OpenAI – sont toutes disponibles dès maintenant.




