Passer au contenu

Stream crée des agents IA multimodaux avec ElevenLabs

L'intégration de ElevenLabs Text to Speech a réduit le temps de configuration par 10 pour les développeurs travaillant avec la voix

stream 1x1 logo

Stream a introduit Vision Agents - un cadre open-source qui permet aux développeurs de créer des expériences IA multimodales à faible latence combinant vidéo, audio et conversation en temps réel. Le cadre intègre ElevenLabs Text to Speech pour offrir des voix expressives et réactives permettant une interaction fluide entre les utilisateurs et les systèmes IA.

Stream vision agent visual

Activer des agents multimodaux en temps réel

Vision Agents donne à l'IA la capacité de voir, entendre et répondre en temps réel. Basé sur les SDK vidéo et audio de Stream, le cadre offre une base à faible latence pour que les développeurs puissent prototyper et déployer des expériences d'agents multimodaux.

Lors de l'évaluation des fournisseurs de Text to Speech, Stream a choisi ElevenLabs pour sa qualité de premier plan et sa facilité d'intégration - ElevenLabs sert désormais d'option vocale principale pour les utilisateurs de Stream.

« ElevenLabs nous a permis d'ajouter facilement des capacités de synthèse vocale puissantes à notre SDK, permettant aux agents de répondre en temps réel avec des voix expressives aux questions des utilisateurs ou en tant que retour sur ce qu'ils voient. » - Neevash Ramdial, Directeur Marketing, Stream

Intégration rapide, fiable et conviviale pour les développeurs

Stream a intégré ElevenLabs dans l'ensemble de son code en seulement quelques jours, permettant aux développeurs d'ajouter une sortie vocale réaliste à leurs agents visuels avec une configuration minimale. L'intégration offre désormais :

  • Configuration 10x plus rapide - La pré-intégration avec ElevenLabs réduit le temps de configuration vocale de 400 lignes de code à seulement 40.
  • Performance à faible latence - La génération vocale rapide de ElevenLabs, combinée au réseau global de Stream, assure une réactivité naturelle et humaine.
  • Expérience développeur évolutive - Les SDK de Stream simplifient le processus de création, de test et de déploiement d'agents multimodaux.

Construire l'avenir de l'IA multimodale

Les Vision Agents de Stream montrent comment les modèles de ElevenLabs élargissent les possibilités de l'IA multimodale. En combinant la compréhension visuelle avec Text to Speech, les développeurs peuvent créer des agents qui non seulement voient, mais aussi parlent et écoutent avec une fluidité quasi humaine.

Vous souhaitez créer avec Text to Speech ? Contactez-nous ici.

Découvrez les articles de l'équipe ElevenLabs

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter